基于微博的网络舆情关键技术的-研究和实现

基于微博的网络舆情关键技术的-研究和实现

ID:34186858

大小:3.11 MB

页数:88页

时间:2019-03-04

基于微博的网络舆情关键技术的-研究和实现_第1页
基于微博的网络舆情关键技术的-研究和实现_第2页
基于微博的网络舆情关键技术的-研究和实现_第3页
基于微博的网络舆情关键技术的-研究和实现_第4页
基于微博的网络舆情关键技术的-研究和实现_第5页
资源描述:

《基于微博的网络舆情关键技术的-研究和实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、摘要摘要现代社会的快节奏正日益改变着人们了解、观察世界和发表看法的方式,传统媒介所发挥的作用已经越来越小,新兴的方式正在萌发并日益壮大。微博适应了这种简单、快捷的生活潮流,正日益成为向网民展示世界和汇聚民意的重要渠道,并或多或少的改变着社会的运转方式。所以,整体了解微博的民意诉求显得至关重要,将为政府和企业决策提供宝贵的资料。目前,网络舆情的研究已经有成熟的技术,但基于微博的网络舆情研究才刚刚起步,微博具有短小精悍、草根性更强、交互方式多种多样和高时效性的特点,这些决定了原有舆情技术已经不能满足微博研究的需要了,对此需要做出改进和调整。本文结

2、合微博的特点,着力解决舆情研究中的各个问题,使之适应微博网络舆情研究的需要。网络舆情的关键技术主要包括网络爬虫技术、网页结构化技术、分词技术以及分类聚类等文本处理技术。本文主要对这些技术做出改进,来适应微博的特点,最终发掘微博热点话题以及人们的情感倾向。当今网络爬虫技术业已成熟,网上也存在大量的免费爬虫系统。目前,互联网企业为了保证微博的正常访问,做了很多反爬虫措施,同时微博页面具有杂乱无章的特点,本文针对这些反爬虫措施,基于larbin爬虫系统,提出定时爬取和代理爬取,并对页面解析采用DOM树和投票算法。本文针对的是中文微博,所以将重点研究

3、中文分词。中文分词技术主要有词典建立、歧义识别和新词识别三个方面。针对微博数据量大、杂、新词不断涌现的特点,本文提出使用基于单字索引的pat树分词词典,加快分词速度,并提出双字耦合和t-测试差相结合来解决歧义,使用搜狗词库来建立词典,涵盖大量新词汇。文本处理技术是网络舆情分析的关键,其中文本聚类和文本分类技术是主要技术。本文意在发现热点话题,提出包括特征提取、文本表示、文本聚类和观点挖掘的文本聚类模型,适应微博舆情研究的需要,最终抽取出热点话题。对此可以及时的了解民意以及网民所持有的情感倾向,便于政府和企业决策。关键词:微博,网络舆情,网络爬

4、虫,中文分词,文本聚类I万方数据ABSTRACTABSTRACTFast-pacedmodernsocietyisincreasinglychangingthewaythatpeopleunderstand,observetheworldandexpresstheirviews,theroleplayedbythetraditionalmediahasbeengettingsmallerandsmaller,newwayisgerminatingandgrowing.Microblogadaptstothetrendofsimple,fast

5、life,isincreasinglybecominganimportantchanneltoshowtheworldandbringstogetherpublicopiniontotheInternetusers,andmoreorlesschangetheworkingsofsociety.Therefore,theoverallunderstandingofthedemandsofpublicopiniononmicroblogiscrucial.Currently,thenetworkpublicopinionresearchhasp

6、roventechnique,butpublicopinionresearchbasedonthemicroblognetworkhasjustbegun.Microbloghasmorecharacteristic,forexample,shortandpithy,more‘grass-roots’,interactwithavarietyofwaysandtimelinessofthedecisionoftheoriginalpublicopinion.Thetechniquecannotmeettheneedsofthemicroblo

7、g,andshouldmakeimprovementsandadjustments.Thekeytechnologiesofnetworkpublicopiniontextprocessingtechnology,includingnetworkreptilestechniques,webstructuredtechniques,segmentation,andclassificationclusteringandsoon.Inthisthesis,tomakeimprovementsforthesetechnologies,toadaptt

8、othecharacteristicsofmicroblog,tofindmicrobloghottopicaswellaspeople'semotionalten

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。