短文本中特殊信息的识别及其在数据挖掘引擎中的应用

短文本中特殊信息的识别及其在数据挖掘引擎中的应用

ID:35092834

大小:4.78 MB

页数:69页

时间:2019-03-17

短文本中特殊信息的识别及其在数据挖掘引擎中的应用_第1页
短文本中特殊信息的识别及其在数据挖掘引擎中的应用_第2页
短文本中特殊信息的识别及其在数据挖掘引擎中的应用_第3页
短文本中特殊信息的识别及其在数据挖掘引擎中的应用_第4页
短文本中特殊信息的识别及其在数据挖掘引擎中的应用_第5页
资源描述:

《短文本中特殊信息的识别及其在数据挖掘引擎中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、^-誦密少k4i^則嫂考庄戶您硕女從义f,却xi"^P'E如柳;短巧中特殊^^嫌据謂弓摩的应用.、..V....;.学号:. ̄.’.?,.i'.>:..,■皆姓;读名;§一片請:.、\k.捕/;导师'1./JIA献..;f*、W;卷*<"1;;致?鄭靴类别1rV*義.髮論I类型:全日制*:A-送‘妾//.处^‘域^誦.I./麵.,'.-气(片r.做賊則期hr;,f..,皆./....:..度,1V

2、/M;V,.V;G,:.馨V.¥;?^,參,K/:南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加W标注和致谢的地方外,论文中不包當其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。一本人学位论文及涉及相关资料若有不实,愿意承担切相关的法律责任。研究生签名:_

3、日期;础南京邮电大学学位论文使用授权明声电电子文本人授权南京邮大学可呆留并向国家有关部口或机构送交论文的复印件和档;和借学位论文的全部或部分入有关进行检可W允许论文被查阅阅;可W将内容编数据库索;采、电子用影印缩印或扫描等复制手段保存、汇编本学位论文。本文文档的内容和纸质论文一。(包的内容相致。论文的公布括刊登)授权南京邮电大学研巧生院办理论文后适。涉密学位在解密用本授权书、化扛朵^期!研:?:6究生签名导师签名^^^^^^Specialinformationidentifybaseonshorttex

4、tanditsapplicationindataminingengineThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByDuWangSupervisor:Prof.YanZhenMarch2016摘要随着互联网的高速发展,因人们日常交流而产生的短文本数据越来越多,短信、微信、微博、QQ,每天都能产生大量的短文本信息。这些文本中含有大量的特殊信息并有其价值,但往往因为数据量太大而且结构不规整被

5、忽视,或只有其中一两种特殊信息受到重视,如只讨论人名的识别或手机号的正则表达式,缺少对其他种类特殊信息的综合研究,而这正是本文的研究重点,本文不仅对人名的识别进行了研究,还增加了对地名和七大账号类实体的识别,涵盖了主要实体,把各类实体的识别整合成一个识别模块。本文立足于对信息的识别抽取,主要进行人名、地名和账号类特殊信息的识别。通过隐马尔科夫模型和Viterbi算法对人名进行识别,通过有限状态机FSM和词典对地名进行识别,通过规则库添加规则对账号类实体进行识别。把这些识别方法整合成一个功能模块,应用于Hadoop引擎中,用MapRed

6、uce方法加以编程,使之能够处理海量数据,有利于今后可直接应用于相关海量数据分析的需求,从而完成对短文中信息的抽取挖掘,更好的利用短文本内的特殊信息。本文通过实验对比的方法证明了文章中中文人名识别的高效性,给出了账号类实体识别的关键代码,并结合项目开发出了特殊信息的识别模块,阐述了系统的功能和总体架构。然后对系统的主要模块做了详细的分析介绍,并在最后做了系统界面的展示,体现了该系统具有一定的实用性和创新性。关键词:语义网络,中文分词,MapReduce并行计算,隐马尔科夫模型,维特比算法,规则库IAbstractWiththerapi

7、ddevelopmentoftheInternet,moreandmoreshorttextdatageneratedbypeopledailycommunication,suchasSMS,WeChat,Weibo,QQ,Everydaypeoplewillproducealargenumberofshorttextmessages.Thetextcontainsalotofspecificinformationandhasitsvalue,butoftentobeignored,becauseithastoomuchdataand

8、thestructureisnotstructured,oronlypayattentiontooneortwokindsofinformation,suchasonlytodiscussChineseNameRecog

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。