基于共现链的微博情感分析技术的分析与实现

基于共现链的微博情感分析技术的分析与实现

ID:44050807

大小:491.14 KB

页数:54页

时间:2019-10-18

基于共现链的微博情感分析技术的分析与实现_第1页
基于共现链的微博情感分析技术的分析与实现_第2页
基于共现链的微博情感分析技术的分析与实现_第3页
基于共现链的微博情感分析技术的分析与实现_第4页
基于共现链的微博情感分析技术的分析与实现_第5页
资源描述:

《基于共现链的微博情感分析技术的分析与实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、摘要本文在研究了文本倾向性分析技术发展现状的基础上,创新性地提出了一种基于共现链的微博倾向性分析算法。首先利用微博数据富含链接信息的优势,将文档解析成文档链。然后利用文本表示模型对文档链进行模型表示,根据预先设定的共现度阈值采用聚类方法抽取出同一主题的不同刻面,并对每个刻面采用基于语义的改进SBV极性算法分析其倾向性。根据微博本身特殊性,本文提出了两个启发式思想。一是话题模型只采用名词和动词表示,忽略形容词和副词;二是仅长文本具有生成新的话题刻面的资格,短文本只参与话题聚类而不能产生新类。本文旨在研究针对微博的倾向性分析中的话题评价对象抽取算法,主

2、要研究内容如下:(1)面向微博的大规模分布式爬虫技术。针对微博特殊性,设计并实现大规模分布式爬虫,快速高效采集和获取特定话题语料。(2)基于网页的元数据解析技术。通过制定高效可扩展专用模板,对HTML进行元数据抽取,并根据微博数据屮回复的明显标志,显示形成文档链。(3)基于共现链的微博倾向性分析技术。结合TDT(Topicdetectionandtracking)话题发现与追踪中的向量空间模型和余弦相似度,将文档链模型化。设定共现度阈值,完成话题刻面的抽取。基于语句级情感分析算法,分析倾向性。(4)设计并实现针对新浪微博的倾向性分析原型系统。通过新

3、浪微博提供的API和大规模分布式爬虫技术,基于启发式共现链算法,有效发现倾向性分析评价对象即话题刻面,并进一步进行情感分析。尖键词:网络舆情;微博;共现链;倾向性分析;意见挖掘ABSTRACTThispaperproposesaco-occurrencechainbasedalgorithmforthefeaturedetectionofmicro-bloggingintheareaofopinionmining.Firstly,weparsemessagesintomessage-chainsbytakingadvantagesoftheexpl

4、icitreplymarksinmicro-blogging.Thenmessage-chainsareclusteredintodifferentfeatures(orfacets)bycomparingthedegreeofco・occurrenceamongthem.Afterthat,weperformsentimentanalysisusingsemantic-basedSBVpolarityalgorithm.Wealsoproposedtwoheuristicsaccordingtothespecificitiesofmicro-bl

5、ogging・Experimentalevaluationsshowthatheuristiccooccurrencechainbasedalgorithmcanextractdiscriminativeandmeaningfulfeaturesandoutperformthosemethodswepreviouslyproposed・Themainresearchareasareasfollows:1・Large-scaledistributedcrawlertechniqueforMicro-blogging.Wedesignandachie

6、velarge-scaledistributedcrawlersothatitcanefficientlyandrapidlycollectandobtainthecorpusofsometopicfromMicro-blogging.2.Webpagesbasedmetadataanalysistechnique・Usingspecialtemplateswithhighperformanceandeasytoexpand,weextractmetadataformHTMLsandformmessagestotheformationofmessa

7、ge-chains.3.Micro-bloggingopinionminingusingco-occurrencechains.CombiningthetechnologiesofTopicModelinTDT(Topicdetectionandtracking),messageschainsareformedintoco-occurrencechains・Andwecaneasilyanalysistheorientationofthefeatures(orfacets)oftopics.4.Designandrealizetheprototyp

8、esystemofSentimentAnalysisforSINAMiero・blogging.Usingtheprovi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。