中文信息抽取关键技术研究与实现硕士学位论文

中文信息抽取关键技术研究与实现硕士学位论文

ID:266370

大小:6.99 MB

页数:67页

时间:2017-07-16

中文信息抽取关键技术研究与实现硕士学位论文_第1页
中文信息抽取关键技术研究与实现硕士学位论文_第2页
中文信息抽取关键技术研究与实现硕士学位论文_第3页
中文信息抽取关键技术研究与实现硕士学位论文_第4页
中文信息抽取关键技术研究与实现硕士学位论文_第5页
资源描述:

《中文信息抽取关键技术研究与实现硕士学位论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、北京邮电大学硕士学位论文中文信息抽取关键技术研究与实现姓名:杨永贵申请学位级别:硕士专业:信号与信息处理指导教师:钟义信20080225北京邮电大学硕士研究生学位论文中文信息抽取关键技术研究与实现摘要随着互联网等新兴媒体的迅猛发展,如何从海量电子文档中及时准确地找到需要的信息已经成为一个亟待解决的问题,信息抽取正是在这样的背景下产生并发展起来的。本文对中文信息抽取的几个关键技术进行了研究,设计实现了多个面向不同领域的信息抽取实验系统,并对信息抽取在信息内容安全领域的应用进行了初步探索。论文的主要研究成果如下:1.设计实现了一种自底向上的有监督机器学习算法,不仅能较准确地完

2、成规则的自动提取,还能较好地实现领域间的移植。在此基础上,设计实现了两个实验系统:财经领域公司人事变动新闻的信息抽取实验系统和移动赛事新闻点播系统。实验结果表明,规则提取算法对两个系统都是有效的。本文还探索了信息抽取与移动终端技术的结合,移动赛事新闻点播系统表明,“信息抽取+短信息"的智能信息服务模式是完全可行的。2.采用隐马尔科夫模型对体育赛事新闻文本进行抽取,设计并实现了实验系统三。并在统计方法的基础上加入了规则的方法,通过两种方式的结合,提高信息抽取性能。实验结果表明,这种统计与规则相结合的中文信息抽取方式取得了比较令人满意的效果。3.在体育赛事新闻领域对命名实体识

3、别进行了重点研究,通过基于规则的方法实现了对赛事名称、比赛结果等命名实体较好地识别。4.探索了信息抽取在信息内容安全领域的应用。针对中文手机垃圾短信过滤任务,提出了一种规则和统计相结合的倾向性判断模型。在此基础上,设计实现了中文短信内容监控实验系统,并取得了良好的实验结果。最后,对本文中文信息抽取关键技术的研究与实现进行了总结,并展望了进一步研究的方向和思路。关键词:信息抽取机器学习命名实体识别隐马尔科夫模型北京邮电大学硕士研究生学位论文Abs仃actRESEARCHANDREALIZATl0NONTHEKEYTECHNOLOGIESOFCHINESEINFORM姗0NE

4、)汀RACTl0NABSTRACTWiththerapiddevelopmentofnewmedias,suchasIntemet,howtofindtheusefulinformationrapidlyandaccuratelyfromatremendousamountofelectronicdocumentshasbecomeaburningproblem,itisinsuchabackgroundthatinformationextractionwasbomanddeveloped.ThisthesisworksonsomekeytechnologiesofChin

5、eseinformationextraction,designsandimplementsseveraltestsystems,andexplorestheapplicationsofinformationextractionininformationcontentsecurity.Themaincontributionsofthisthesisinclude:1.Asupervisedlearningalgorithmwithbottom-upstrategyisproposed,itcannotonlygeneraterulesautomaticallyandaccu

6、rately,butalsocantransplantacrossdomainsd.Basedonthisalgorithm,twotestsystemsaredesignedandrealized:corporation’Spersonnelchangesnewsinformationextractiontestsysteminfinanceandeconomicsdomainandmobilegamenewsorderingtestsystem.Experimentalresultsshowthatthealgorithmiseffectivetothebothsys

7、tems.Inaddition,Thecombinationofinformationextractionandthetechnologyofmovableterminationisexplored,themobilegamenewsorderingtestsystemshowsthattheintelligentinformationservicemode,“information+SMS",iSfeasible.2.HiddenMarkovModeI(HMM)isusedtoextractsportsgamenews,wh

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。