欢迎来到天天文库
浏览记录
ID:35059829
大小:2.97 MB
页数:53页
时间:2019-03-17
《基于云平台的文本特征选择算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、*中i計f乂泉CHINAILIANGUNIVERSITYJ硕±学位论文MASTE民DISSERTATION某干云平台的文本特化选择算法研宛eatureSelectionAResearchofTextF_AlgorithmasedonCloudPlatformB作者王军锋导师玉伟副教授学科计算机应巧技术中国计量大学二〇—六年四月、?独创性声明本人声明所呈巧的学位论文是本人在导师指导下进行的研巧工作和取得的研巧成果,除了文中特别加示注和
2、致谢之处外,论文中不包含其他人B经发表或撰写过的研巧成果,也不包含为获得中国计量大举或其化教育机构的一学位或证书而使用过的材料。与我同工作的同志对本研究所做的任何贾献均已巧论文中作了明确的说明并表示了谢意。学位论文作者签名:签字曰期:辟(月曰j气学位论文版权使用授权书本学化论文作者完全了解中国计量大学有关保留、使用学位论文的规定。特授权中国计畳大学可料将学位论文的全部或部分巧容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编从供查阅和借閲。同意学校向国家有关部口或
3、机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名;:导师签名巫寺讳气f曰签字曰期月曰签字期或年曰的任C月(t3^[AResearchofTextFeatureSelectionAlgorithmBasedonCloudPlatformByJunfengWangADissertationSubmittedtoChinaJiliangUniversityInpartialfulfillmentoftherequirementForthedegreeofMasterofE
4、ngineeringChinaJiliangUniversityJune,2016中图分类号TP181学校代码10356UDC0048密级公开硕士学位论文MASTERDISSERTATION基于云平台的文本特征选择算法研究AResearchofTextFeatureSelectionAlgorithmBasedonCloudPlatform作者王军锋导师卫伟副教授申请学位工学硕士培养单位中国计量大学学科专业计算机应用技术研究方向云计算和大数据二〇一六年六月致谢在研究生生活即将结束之际,更加珍惜走在校园湖边和林荫道上的时光
5、,回忆种种,从出入学校的懵懂少年到如今离开学校,即将跨入职场,要感谢的人有很多。首先,要感谢我的导师卫伟教授。在我论文方向选题、指导参考文献、修改论文不足,遇到论文研究难点时候,及时给我提供思路。在我生活生,对我的实习工作环境以及人生重大选择上给予我良好的建议,犹如慈父一般。这份感情我将一直铭记于心。同时在完成论文过程,我还要感谢陆慧娟教授,潘巨龙教授,周永霞教授,王康健教授,尤其是陆慧娟教授,她仔细认真负责,我的小论文和大论文,老师都不辞辛苦得给予我方向指点和修改建议,为我论文的发表和过审查起到了关键性的作用。在此,再
6、一次表示衷心的感谢各位老师。感谢13级同学,感谢金培源、刘亚卿、何金彪、任乐乐、叶佳骏、梅支礼、沈圣远、陈星平、王石磊,谢谢这三年中,他们对我的帮助以及给我带来的快乐。最后感谢我的家人,他们支持我的学业,在我人生、学业、工作迷茫时候及时引导我走出困境,是我坚强的后盾和永久的港湾,感谢他们的关爱和包容。、王军锋2016年6月基于云平台的文本特征选择算法研究摘要:近来伴随互联网信息技术和产业链迅猛发展,各行业数据规模均呈现指数级增长,尤其以电商和社交网络为服务内容的企业数据中心。尽管数据量规模巨大,方便基本事务都有迹可循,但
7、数据结构混乱,大规模数据没有合理得被分门归类,导致隐含的价值无法被提取,因而容易陷入面对茫茫数据而无计可施的困境。怎么从庞大文本数据集中获取有价值的信息,已经成为研究人员探索的热点。以机器学习、数据挖掘和自然语言处理为基础的文本分类可以把不规则的数据根据给定的算法分门归类,其作为核心技术,能够从海量文本数据集中获取所需信息。经分析调研,文本分类不同的阶段对最终文本分类的效果有着不同程度的影响,尤其是特征选择环节更是起着决定性的作用,同时特征选择也能够有效一定程度上解决高维稀疏引发的高计算复杂度和低分类精度问题。所以,本文
8、以特征选择展开研究,针对经典文本特征选择算法没有对类内文档特征词频度、类间集中度、类内分散度的综合衡量,提出了基于卡方统计(CHI)和互信息(MI)的改进型组合特征选择算法CHMI,并在公开中文语料库上和经典文本特征选择算法做了对比,验证了CHMI较经典算法在分类效果上有所提高。虽然本文提出的CHMI算法在文本分类效
此文档下载收益归作者所有