面向互联网新闻的文本聚类算法研究与实现

面向互联网新闻的文本聚类算法研究与实现

ID:35121647

大小:3.42 MB

页数:86页

时间:2019-03-19

面向互联网新闻的文本聚类算法研究与实现_第1页
面向互联网新闻的文本聚类算法研究与实现_第2页
面向互联网新闻的文本聚类算法研究与实现_第3页
面向互联网新闻的文本聚类算法研究与实现_第4页
面向互联网新闻的文本聚类算法研究与实现_第5页
资源描述:

《面向互联网新闻的文本聚类算法研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、面向互联网新闻的文本聚类算法研究与实现作者姓名闫玉华指导教师姓名、职称姚勇副教授申请学位类别工学硕士万方数据万方数据学校代码10701学号1403121719分类号TP391密级公开西安电子科技大学硕士学位论文面向互联网新闻的文本聚类算法研究与实现作者姓名:闫玉华一级学科:计算机科学与技术二级学科:计算机应用技术学位类别:工学硕士指导教师姓名、职称:姚勇副教授学院:计算机学院提交日期:2017年5月万方数据万方数据ResearchandImplementationofTextClusteringAlgorithmforInternetNewsAthesiss

2、ubmittedtoXIDIANUNIVERSITYinpartialfulfillmentoftherequirementsforthedegreeofMasterinComputerApplicationTechnologyByYanYuhuaSupervisor:YaoYongTitle:AssociateProfessorMay2017万方数据万方数据西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内

3、容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文若有不实之处,本人承担一切法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权属于西安电子科技大学。学校有权保留送交论文的复印件,允许查阅、借阅论文;学校可以公布论文的全部或部分内容,允许采用影印、缩印或其它复制手段保存论文。同时本人保

4、证,结合学位论文研究成果完成的论文、发明专利等成果,署名单位为西安电子科技大学。保密的学位论文在年解密后适用本授权书。本人签名:导师签名:日期:日期:万方数据万方数据摘要摘要最近几年以来,随着中国移动互联网设备与传统新闻媒体行业不断深入融合和发展,新闻阅读的兴趣点由传统社交网络的短文本转向借助公众平台实时推送的新闻长文本,如何根据新闻内容划分类别然后准确地推送给用户成为新闻服务提供商的一个重点关注的问题。现阶段解决方式是首先在新闻文本收集初期使用人工手段进行类别标注,之后借助深度学习方法通过收集海量文本特征实现新闻自动化分类。海量文本特征收集过程首先需要依托

5、强大的新闻内容服务;其次由于新闻具有实时性,文本特征库需要专业人员不定期维护。该方法虽然分类十分精确,但由于其运营成本过于昂贵,在社会应用中普及率不高。本文在对文本聚类技术发展和研究现状进行简要介绍的基础上,首先详细地阐述了基于不同实现方式的文本聚类技术,然后在借鉴前人工作成果和总结新闻文本特点的前提下,提出和设计了一种基于先验知识改进的AHK-P混合聚类算法,该算法的主要原理是首先通过先验知识为文本预先添加一定准确度的类别属性,然后结合文本类别属性和文本词汇特征对新闻文本实现双重约束以选取纯度较高子簇,继而围绕子簇进行文本聚类。(1)该算法通过分类词库先验

6、知识和文本词汇特征分别构建文本的类别映射向量和文本表示向量;(2)借助凝聚层次聚类使用类别映射向量在类别角度粗划分文本数据集;(3)在粗划分后的各类中使用类别映射向量和文本表示向量优化提取初始质心;(4)结合类别映射向量和文本表示向量改进文本距离计算方法,通过K-means算法细划分文本数据集,提高文本聚类的准确性。AHK-P算法不仅具有传统H-K方法聚类准确、多种聚类方法优势互补的特点,而且具有初始质心提取方式灵活可变、聚类过程更加快速的新特点。通过互联网新闻的文本聚类实验结果对比分析,本文设计的新闻文本聚类方法在聚类质量方面与传统方法相比具有明显提升。关

7、键词:互联网,新闻文本,文本聚类,AHK-P,类别映射向量,文本表示向量I万方数据西安电子科技大学硕士学位论文II万方数据ABSTRACTABSTRACTInrecentyears,withthedevelopmentoftherapidintegrationbetweenChinamobileInternetdevicesandnewsmedia,thenewsreadingpointofinterestischangingfromthetraditionalsocialnetworkshorttexttothereal-timelongtextnewsi

8、nthepublicplatform,andmany

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。