毕业论文--基于个人微博特点的事件提取研究

毕业论文--基于个人微博特点的事件提取研究

ID:39811890

大小:388.00 KB

页数:11页

时间:2019-07-11

毕业论文--基于个人微博特点的事件提取研究_第1页
毕业论文--基于个人微博特点的事件提取研究_第2页
毕业论文--基于个人微博特点的事件提取研究_第3页
毕业论文--基于个人微博特点的事件提取研究_第4页
毕业论文--基于个人微博特点的事件提取研究_第5页
资源描述:

《毕业论文--基于个人微博特点的事件提取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、计算机应用与软件7基于个人微博特点的事件提取研究摘 要个人微博在事件提取上大多都是运用文本进行相似度计算最终达到聚类结果,而没有充分的考虑到微博特点,针对微博标签、URL、时间的特点,提出了一种基于微博特点的事件提取算法,该算法针对微博的特点进行TF-IDF的改进,并加入标签相似度,URL相似度,进行综合相似度计算,最后按时间先分段后合并的改进k-means聚类方法得出聚类结果。实验结果表明,基于微博特点的事件提取算法对微博关键字提取和事件提取的精确度有明显的提高。关键词微博特点 事件提取 综合相似度中图分类号TP3    文献标

2、识码A    DOI:10.3969/j.issn.1000-386x.2013.01.001ARESEARCHOFEVENTSDETECTIONOFPERSONALMICRO-BLOGBASEDONMICRO-BLOGCHARACTERISTICAbstractIndividualmicro-Blogontheeventaremostlyextractedusingtextsimilaritycalculationultimatelyachieveclusteringresults,butitdoesn’tfullyconsid

3、erthefeaturesofmicroblog.Accordingtothecharacteristicsmicroblogginghashtag,URLandthetime,thispaperputsforwardaalgorithmofeventextractionofmicroblogbasedonmicroblogcharacteristic.thisalgorithmputsthemicro-blogcharacteristicsintoTF-IDFimprovementanditaddsHashtagsandURLs

4、imilaritytomakecomprehensivesimilaritycalculation.Finally,accordingtoimprovedk-meansclusteringmethodthatusingsegmentstimeandmergestime,thispapergetsclusteringresults.TheexperimentalresultsshowthatthealgorithmbasedonMicro-blogcharacteristicseventextractionhasimprovedob

5、viouslyfortheaccuracyofMicro-blogkeywordextractionandEventextraction.KeywordsMicro-BlogcharacteristicEventsdetectionComprehensivesimilarity计算机应用与软件70引 言在这个信息发展飞速的年代,我们渴望了解我们感兴趣的人和事。企业之间想相互了解自己的竞争对手,公司员工想了解老板的信息,追星族想了解自己喜欢的明星,个人想了解自己的亲戚朋友的近况。微博却承载着我们个人的想法而诞生。微博作为一种新型的社

6、交网络,发展急速,用户可以通过WEB、移动客户端等途径将自己日常的生活点点滴滴发布和大家分享。个人发表的微博以140个字(本文以新浪微博为主)为界限,可以加入标题、表情、URL、图片、链接等丰富的信息而著称。正是因为微博这种开放性的特点,使得它的用户剧增。随着微博的快速发展,微博的历史信息量也越来越大,加上微博独特的特点,这使得我们在想了解我们感兴趣的人和事情的时候,困难加剧。所以本文根据微博的特点,进行事件提取研究,实验也充分的证明了本文算法的有效性。1相关工作国内外对微博事件提取的研究逐渐成熟,1.改进的TF-IDF方法,S.

7、Phuvipadawat等首先用TFIDF方法将文本转换到向量空间模型,并提出了一种基于命名实体加权的改进TFIDF方法;许莉等人引入了信息熵与信息增益的概念,用以解决词语在类别间的分布不均;张保富等考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法;2.微博分段的方法,AixinSun等提出了基于分段的Tweets事件检测算法3.基于索引的方法,姚俊杰,崔兵等人提出了基于索引结构的方法4.主题模型的方法,Jiweili等提出了基于时间线的收稿日期:xxxx-xx-xx。基金项目:教育部春晖计划项目(

8、00110310)作者简介:高永兵,副教授,主研领域:数据管理,信息检索。陈超,硕士生。熊振华,硕士生。王宇,硕士生。LDA综合模型方法。但是以上方法没有充分考虑到微博的特点,本文根据微博特点,把微博特点进行细分化,通过改进的TF-IDF提取出关键

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。