基于爬虫和文本聚类分析的网络舆情分析系统设计与实现

基于爬虫和文本聚类分析的网络舆情分析系统设计与实现

ID:33343758

大小:2.27 MB

页数:81页

时间:2019-02-25

基于爬虫和文本聚类分析的网络舆情分析系统设计与实现_第1页
基于爬虫和文本聚类分析的网络舆情分析系统设计与实现_第2页
基于爬虫和文本聚类分析的网络舆情分析系统设计与实现_第3页
基于爬虫和文本聚类分析的网络舆情分析系统设计与实现_第4页
基于爬虫和文本聚类分析的网络舆情分析系统设计与实现_第5页
资源描述:

《基于爬虫和文本聚类分析的网络舆情分析系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号密级注1UDC学位论文基于爬虫和文本聚类分析的网络舆情分析系统设计与实现(题名和副标题)李芸(作者姓名)指导教师刘贵松副教授电子科技大学成都杨小军高工千帆进上海(姓名、职称、工作单位)申请学位级别硕士专业学位类别工程硕士工程领域名称软件工程提交论文日期2014.09.25论文答辩日期2014.11.30学位授予单位和日期电子科技大学2014年12月25日答辩委员会主席评阅人万方数据注1:注明《国际十进分类法UDC》的类号。2万方数据SYSTEMDESIGNANDIMPLEMENTATIONBASEDON

2、CRAWLERANDTEXTCLUSTERINGFORNETWORKPUBLICOPINIONANALYSISAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:MasterofEngineeringAuthor:LiYunAdvisor:LiuGuisongSchool:SchoolofInformationandSoftwareEngineering万方数据独创性声明本人声明所呈交的学位论文是本人在导

3、师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名:日期:年月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据

4、库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)作者签名:导师签名:日期:年月日万方数据摘要摘要在现代互联网技术快速发展的带动下,以万维网作为信息的核心载体给人们搜索信息、共享信息提供了丰富的数据源,但在网络资源中快速获取精准有效信息变得越来越难,而且信息的置信程度也难以保证。现有搜索引擎技术和产品,如Google、百度、HotBot等,在很大程度上满足了人们获取网络信息资源的需求。但是,如何面对不同的用户偏好、用户背景等,识别用户潜在的搜索意图,挖掘用

5、户背后真正需要的信息,对搜索引擎系统设计的重要性毋庸置疑。本文在对已有搜索系统研究基础上,研究个性化搜索的应用,并开展了搜索系统在舆情分析中的应用研究。主要内容包括:阐述了个性化搜索系统中的用户兴趣模型、网络信息抓取、网页信息分析与挖掘、文本聚类分类等关键技术,并基于系统的功能需求分析,设计了个性化搜索系统的总体框架和各个模块,通过个性化搜索系统在网络舆情分析中的应用,对舆情分析的关键技术进行了研究,并给出了系统的性能测试和分析结果。本文工作主要体现在以下两个方面:1)通过整合网络爬虫、文本分类与聚类、及索引

6、技术,设计了一种基于用户兴趣模型的舆情热点信息挖掘框架。该框架通过网络爬虫中的信息抓取、信息过滤与更新策略,获取网络中有效的信息;然后采用改进的文本分类与聚类技术,挖掘出网页中的舆情分布、来源等热点信息,并且与用户进行交互,通过用户的反馈,构建相应的用户兴趣模型库。该框架为基于用户的个性化搜索系统设计提供了良好的参考。2)针对传统K-Means聚类算法对文本初始化聚类中心较为敏感及容易陷入局部极小点的问题,提出了一种基于向量空间模型的K-Means改进聚类算法。该算法提高了文本聚类及分类的准确率,有效解决了传

7、统K-Means聚类算法在文本挖掘中的问题,并且也提高了文本挖掘的效率。关键词:网络爬虫,文本挖掘,聚类分析,用户兴趣模型I万方数据ABSTRACTABSTRACTWiththerapiddevelopmentofthemodernInternettechnology,WWWasoneofthecorecarriersofinformation,theinformationofWWWisrapidgrowththatcouldprovidearichsourceofinformationforpeoplese

8、archingandsharing.However,theeffectiveandaccurateinformationtogetisbecomingmoreandmoredifficultwiththeincreasingamountofinformation,andtheconfidencelevelofinformationisalsohardtoguarantee.Therefore,the

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。