基于新闻报道的中文关键词抽取算法研究

基于新闻报道的中文关键词抽取算法研究

ID:35065853

大小:3.30 MB

页数:61页

时间:2019-03-17

基于新闻报道的中文关键词抽取算法研究_第1页
基于新闻报道的中文关键词抽取算法研究_第2页
基于新闻报道的中文关键词抽取算法研究_第3页
基于新闻报道的中文关键词抽取算法研究_第4页
基于新闻报道的中文关键词抽取算法研究_第5页
资源描述:

《基于新闻报道的中文关键词抽取算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、.Uf.若、、:若"-..I-..^^分类号密級太原理工大学硕±学位论支题目摧于新闻报迸的中文关强词抽权尊法师究V炒ResearchonChineseK巧wordExtractionAigon化mBased0凸\英文并列题gNewsReport^.迄胡琪巧究生姓名:…—:.铅:3510学号:巧5201■心"^1.’-.软件工程r-:专业再,’'I巧究方向fcA谭:T处理:.。矣..‘.I

2、可.聲.郝晓燕导师姓名..-抵ilv::v’一':高’足职称]教授;心毒,^_._:■■并户'::-'.六-‘一if.X'’I4’学位蜡予单位太原巧T大举:^!;?I论文提费日則、2066.1/地址山西?太原:,'■I太原理王大学胃.J-、’小-心"一.''./-.声明本人郑重声明,是本人在指导教师的指导下,:所呈交的学位论文独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含其他个人或集体已经发表

3、或撰写过的研究成果。对本文的研究。做出重要贡献的个人和集体,均已在文中明确方式标明本声明的法律论责任由本人承担。文作者签名;古目球日期:b、咬关于学位论文使用权的说明本人完全了解太原理工大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部口送交学位论文的原件与复印件;②学校可1^心采巧影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可^^学术交流为目的,?复制赠送和交换学位论文;⑤学校可公布学位论文的全部或部分内容(保密学位论文

4、在解密后遵守此规定)。导签名;拥球日期;M、、文师签名;識嘶戒日期:>'占、^、咬I太原理工大学硕士研究生论文基于新闻报道的中文关键词抽取算法研究摘要关键词可以帮助用户迅速掌握文章的主要内容和思想,节省浏览时间,为用户是否进一步阅读新闻内容提供决策。互联网作为新闻传播的重要渠道,多数新闻网页没有关键词,并且网络新闻已经脱离了报纸、杂志等传统新闻的写作结构和方式,逐渐形成了自己独有的写作特点,现有的关键词抽取方法对其并不完全适用,所以选择适合新闻报道的关键词抽取方法,可以提高查询速度与用户满意度。

5、基于以上考虑,本文在分析国内外研究现状并比较多种关键词抽取方法的基础上,针对新闻报道的写作特点,对现有方法进行改进,提出适合新闻报道写作内容和结构的关键词抽取方法。一方面在以新闻报道写作结构研究的基础上,对基于特征统计的关键词抽取方法进行改进。一般的特征统计方法,主要基于位置、词性、词频等方面考虑。其中的位置特征,将文章分为标题、摘要、首尾段、正文等多个部分,并根据关键词在文中的出现位置,为它们分配不同的参数值作为关键词识别的一个特征项。但是对于新闻报道或网页文本,很多都没有摘要或标题,有时也只用一个段落进行叙述,此时这样

6、的位置分析并不合适。所以本文深入分析关键词在文中的位置分布情况,提出了更适用其写作特点的间距特征。另一方面在以新闻报道写作内容研究的基础上,对基于聚类的关键词抽取方法进行改进。由于新闻内容总是报道最新、最近的事实,其中自然I太原理工大学硕士研究生论文也会囊括最新的词汇和网络用语,而这些词语都不会被及时地收录到知识库中,导致在计算词语相似度时无法被识别。所以文中提出在一般聚类方法中,加入互信息的计算与筛选,同时从语义和词语关联度两方面考虑,提高关键词抽取的准确率。最后的实验对比结果中,论文中所提出的方法在准确率、召回率等方面

7、性能都有所提高,表明本文针对新闻报道内容和结构特点提出的改进算法是有效的。关键词:关键词抽取,间距,统计特征,聚类,互信息,新闻报道II太原理工大学硕士研究生论文ResearchonChineseKeywordExtractionAlgorithmBasedonNewsReportABSTRACTThekeywordscanhelppeopletounderstandthemaincontentandthemeofthearticle,savethebrowsingtimeandprovidedecisionwhether

8、toreadfurtherthenewsreportfortheuser.However,theinternetasanimportantchannelforthedisseminationofnewsandmostofthenewspageswithoutkeywords.Inaddition,the

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。