面向新闻文档的自动微博生成算法研究与实现

面向新闻文档的自动微博生成算法研究与实现

ID:34164998

大小:12.60 MB

页数:61页

时间:2019-03-03

面向新闻文档的自动微博生成算法研究与实现_第1页
面向新闻文档的自动微博生成算法研究与实现_第2页
面向新闻文档的自动微博生成算法研究与实现_第3页
面向新闻文档的自动微博生成算法研究与实现_第4页
面向新闻文档的自动微博生成算法研究与实现_第5页
资源描述:

《面向新闻文档的自动微博生成算法研究与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据西南交通大学硕士研究生学位论文第1页摘要网上每天产生巨量新闻,普通用户不容易通过手机浏览这些信息。从海量新闻信息中找到自己感兴趣的信息非常耗时,因此我们迫切需要有效的压缩工具对大量信息进行提炼、浓缩。文本的总结不仅可以压缩文本信息,而且可以支持文本的其它处理,如信息存储、信息检索和数据挖掘等。本文在面向新闻文档的总结技术的基础上,为了提高用户阅览和选择感兴趣信息的效率,提出新闻文档自动生成微博这一全新概念,采用不同方法实现生成微博,并利用不同方式进行对比分析。本文主要内容和贡献如下:第一,提出面向新闻文

2、档的自动生成微博的概念。通过文本信息处理,并生成不超过140字的主题后,人们只需阅读少量信息就能确定是否需要进行全文阅览,这将大大提高人们获取电子文本信息的效率。第二,本文探索了面向中文新闻文档自动总结技术的研究。通过对现阶段几种流行的自动总结技术,如基于统计的自动总结,基于自然语言理解的文档总结,得到它们自身的优点和缺点,并在此基础上提出采用基于关键短语自动生成微博。提取出能够代表和抽象原文的关键词短语为第一级总结,根据生成的关键短语选择总结性句子作为微博。第三,采用基于潜在语义分析模型生成微博。这种方法识别

3、语义重要的句子来创建微博,努力选择具有较高排序分数,且彼此不同的句子。尝试创建对文档主要内容有较大覆盖范围且较小冗余度的微博。对由不同模型生成的微博结果采用不同的方法进行比较和分析。第四,实现新闻文档的自动微博生成系统。实现了两种自动生成微博的方法,一方面,采用基于统计方法生成关键概念作为文档的第一级别的总结,然后根据关键概念和句子之间的关系选择总结性的句子作为微博。另一方面,采用基于潜在语义分析方法提取潜在重要的句子作为微博结果。评估关键词:自动微博生成:潜在语义分析;奇异值分解;关键短语提取;自动微博万方数

4、据AbstractAhugeamountofonlinenewsaregeneratedeveryday.Soitisnoteasyforregularuserstobrowsenewsviamobilephone.Itisreallytimeconsumingforregularuserstoselecttheirinterestedcontentfromsuchlargenumberofnewsinformation.Therefore,acompressiontoolisnecessaryforthemt

5、orefineandconcentratetheseinformation.Summaryoftextualinformationcannotonlycompresstextualmessages,butalsoprovideoⅡlertrea恤ents.suchastextinformationstorage,informationretrievalanddatamining.Afterstudyingthetechnologiesofnewssummary,inordertoimprovetheeffici

6、encyofviewingandchoosinginterestedinformation,weproposeanewconcept“automaticallygeneratedmicrobloggingofnews”.Thecontributionsofthispaperareshownasfollows:First.anewconceptofautomaticallygeneratedmicrobloggingofnewsisproposed·Aftergeneratingthemesofthearticl

7、eswithlessthan140words,regularusersjustneedtoreadasmallnumberofmicro—Bo,Thiswouldgreatlyimprovetheefficiencyofgettingelectronictextmessages.Second,weexploredtostudytheautomaticallygeneratedsystemaboutChinesemicrobloggingdocuments.Afterstudyingthefeaturesofse

8、veralpopulartechnics,suchaS:statisticS—basedautomaticsummary,naturallanguageunderstandingbaseddocumentsummaryandstructure.basedautomaticsummarization.Microbloggingareautomaticallygeneratedwithke

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。