多特征融合文本聚类的新闻话题发现模型(.doc

多特征融合文本聚类的新闻话题发现模型(.doc

ID:29010232

大小:766.00 KB

页数:7页

时间:2018-12-15

多特征融合文本聚类的新闻话题发现模型(.doc_第1页
多特征融合文本聚类的新闻话题发现模型(.doc_第2页
多特征融合文本聚类的新闻话题发现模型(.doc_第3页
多特征融合文本聚类的新闻话题发现模型(.doc_第4页
多特征融合文本聚类的新闻话题发现模型(.doc_第5页
资源描述:

《多特征融合文本聚类的新闻话题发现模型(.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、多特征融合文本聚类的新闻话题发现模型*基金项目:国家自然科学基金项目(61272513);北京市教育委员会科技计划面上项目(KM201511232016);北京高等学校青年英才计划项目(YETP1503);北京市教育委员会科技计划面上项目(SM201511232004)。作者简介:车蕾(1979-),女,河南洛阳人,副教授,博士研究生,E-mail:chelei@bistu.edu.cn;杨小平(通信作者),男,教授,博士,博士生导师,E-mail:yang@ruc.edu.cn。车蕾1,2,杨小平1(1.中国人民大学信息学院,北京,10

2、0872;2.北京信息科技大学信息管理学院,北京,100192)摘要:为提高Web新闻话题发现的准确率,融合新闻命名实体、新闻标题、新闻重要段落、文本语义等多特征影响,提出基于多特征融合文本聚类的新闻话题发现模型。模型根据新闻的多特征影响,提出一种多特征融合文本聚类方法。该方法针对新闻标题、新闻重要段落等特征因素构建向量空间模型及相似度算法,基于潜在狄利克雷分配模型构建主题空间模型及相似度算法,针对命名实体构建命名实体模型及相似度算法,并将三种相似度算法形成最优融合。基于多特征融合文本聚类方法,模型改进了用于新闻话题发现的Single-P

3、ass算法。实验是在真实新闻数据集上开展的,实验结果表明该模型有效地提高了新闻话题发现的准确率、召回率和综合评价指标,并具有一定的自适应能力。关键词:新闻话题;多特征融合;潜在狄利克雷分配;向量空间模型;主题空间模型中图分类号:TP391NewsTopicDiscoveryModelofMultiFeatureFusionTextClusteringCHELei1,2,YANGXiaoping2(1.SchoolofInformationRenMinUniveristyofChina,Beijing100872,China;2.Schoo

4、lofInformationManagementBeijingInformationScience&TechnologyUniversity,Beijing100192,China)Abstract:InordertoimprovetheaccuracyofWebnewstopicdiscovery,thenewstopicdiscoverymodelbasedonmultifeaturefusiontextclusteringisproposedthatfusesmultifeaturesofnews,suchasnamedentiti

5、es,newsheadlines,importantparagraphs,textsemanticsandsoon.Basedonmultifeatureinfluenceofnews,amultifeaturefusiontextclusteringmethodisputforwardinthismodel.Inthisway,vectorspacemodelandsimilarityalgorithmbasedonfeaturewords,newsheadlines,importantparagraphsareconstructed,

6、subjectspacemodelandsimilarityalgorithmbasedonLDAisconstructed,namedentitymodelandsimilarityalgorithmbasedonnamedentitiesisconstructed,andthosethreesimilarityalgorithmsarefusedoptimally.Basedonmultifeaturefusiontextclusteringmethod,theSingle-Passalgorithmusedinthenewstopi

7、cdiscoveryisimproved.Experimentsarecarriedoutontherealnewsdataset,andtheexperimentalresultsshowthatthemodelcanimprovetheaccuracyrate,recallrateandcomprehensiveevaluationindexofthenewstopicdiscovery,andhavesomeabilityofself-adaption.Keywords:NewsTopic;MultiFeatureFusion;La

8、tentDirichletAllocation;VectorSpaceModel;SubjectSpaceModel随着信息化的发展,互联网逐渐成为人们获取信息的一个主要途径,突发新闻事件可以

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。