面向领域的新闻话题发现的研究

面向领域的新闻话题发现的研究

ID:46221628

大小:62.61 KB

页数:3页

时间:2019-11-21

面向领域的新闻话题发现的研究_第1页
面向领域的新闻话题发现的研究_第2页
面向领域的新闻话题发现的研究_第3页
资源描述:

《面向领域的新闻话题发现的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、面向领域的新闻话题发现的研究米佳,苗振江(北京交通人学计算机与信息技术学院信息所,北京100044)摘要:互联网新媒体产生海量的半结构化新闻数据,它们具备时效短,动态性强,结构不规范、对社会舆论具冇导向作用等特点。如何将这些数据归类,提炼出主题信息,是木文研究的主要问题。木文主要讨论如何将话题发现与追踪技术应用到新闻领域,试图从新闻文本集合屮,找到主要的核心话题,以专题的形式呈现给用户。本文首先研究了话题发现的关键技术,分析话题发现体系结构的主要步骤,包插文本预处理、话题建模、聚类算法等阶段,得出文本聚类是其中的关键步骤;接着,阐述了各种聚类算法的原理及利弊;最后,从聚类的均匀性,话题质量等方

2、面,比较儿种算法的组合策略,选収了在话题发现中使用较多的single-pass算法和average-link比较策略,设计话题发现系统,并阐述了话题发现在网络舆情监控中的实际应用。关键词:机器学习;话题发现;文本聚类;single-pass算法FacingthefieldofnewstopicdetectionMIJia,MIAOZhenjiang(BeijingJiaoTongUniversity,Beijing100044)Abstract:TheInternetnewmediahavemassofsemi-structureddatanews・theyhavetimelimitation

3、,strongdynamicandinformalstructure,whichplayaguidingroleinsocialpublicopinions,etc.Themethodsofclusteringthesedataandabstractingtopicinformationarethemainprobleminthispaper.ThisarticlemainlydiscusshowtofindthetopicandapplyTDTtonewsfield,tryingtofindthemaincoresubjectfromsetsoftextsintheformofproject

4、presentedtotheuser.Firstly,thispaperstudiesthekeytechnologyofTDTandanalysesofthearchitectureofthemaintopicdetectionsteps,includingthetextpretreatmentandtopicmodeling,clusteringalgorithmphases;Secondly,drawstextclusteringisoneofthekeysteps;Then,thispaperexpoundstheprincipleofeachkindofclusteringalgor

5、ithmsandthepros;Atlast,makescomparisonofseveralalgorithmcombinationstrategiesfromtheclusterunifbrmityandthetopicquality.Thispaperexploreswidelyusedsingle-passalgorithmandaverage-linkstrategytodesigntopicdetectionsystemandexpoundsthetopicdetectionpracticalapplication.innetworkmonitoringpublicopinion.

6、Keywords:machinelearning;TDT;textclustering;single-passalgorithm0引言互联网作为新媒体传播途径,它的发展和创新模式引发前所未有的信息革命。瑞典互联网市场研究公司RoyalPingdom在发布的2011年全球互联网产业发展状况报告中的数据显示,2011年全球互联网用户总数接近21亿。新兴的信息传播媒介,如博客(BLOG)、RSS、百科全书(Wiki)、数字图书馆、社会网络(SNS)、P2P、即时信息(IM)以及Twitter、微博,它们的结构形式复杂,没冇统一的规则,时效性较大,内容变化较快。如何从这些非结构化或者半结构化的海量We

7、b数据超文本系统屮,提取用户需要的信息,以结构化的数据形式提供给用户,成为研究关注的问题。山话题发现与追踪(TopicDetectionandTracking,简称TDT)技术为解决Web2.0时代的上述新问题提供了方向。日前,己经广泛应用于行业调研分析、信息安全、金融证券以及军事领域。本文主要依托话题发现与追踪这个背景,从Web文本挖掘与聚类分析结合点展开,采用文本聚类相关算法应用于新闻话题识别

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。