论文——基于个人微博特点的事件提取研究

论文——基于个人微博特点的事件提取研究

ID:30926450

大小:345.64 KB

页数:14页

时间:2019-01-04

论文——基于个人微博特点的事件提取研究_第1页
论文——基于个人微博特点的事件提取研究_第2页
论文——基于个人微博特点的事件提取研究_第3页
论文——基于个人微博特点的事件提取研究_第4页
论文——基于个人微博特点的事件提取研究_第5页
资源描述:

《论文——基于个人微博特点的事件提取研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于个人微博特点的事件提取研究高永兵陈超熊振华王宇(内蒙古科技大学信息工程学院内蒙古包头014010)摘要个人微博在事件提取上大多都是运用文本进行相似度计算最终达到聚类结果,而没有充分的考虑到微博特点,而本文充分的利用了微博标签、URL、转发、评论、赞数、时间的特点,提出了一种综合相似度的计算方法,该算法针对微博的特点进行TF-IDF的改进,并加入标签相似度,流行相似度,时序相似度,URL相似度,进行综合相似度计算。实验结果表明,基于微博特点的综合相似度算法对微博关键字提取和事件提取有明显的提高。微博特点综合相似度事件提取中图分类号TP3文献标识码A

2、DOI:10.3969/j.issn.1000-386x.2013.01.001FORMATDESCRIPTIONOFCOMPUTERAPPLICATIONSANDSOFTWARE!英文题目]GaoYongbingChenChaoXiongZhenhuaWangYu(SchoolofInformationEngineering,InnerMongoliaUniversityofScienceandTechnology,Bciotou014010,InnerMongolia.China)Thisspecificationissetforthethese

3、stobepublishedinComputerApplicationsandSoftware,includingfonts,margins,pagesizeandprintarea.ComputerFormatdescriptionSoftware0引言在这个信息发展飞速的年代,我们渴望了解我们感兴趣的人和事。企业之间想相互了解口己的竞争对手,公司员工想了解老板的信息,追星族想了解自己喜欢的明星,个人想了解自己的亲戚刖友的近况。微博却承载着我们个人的想法而诞生。微博作为一种新盘的社交网络,发展急速,用户可以通过WEB、移动客户端等途径将口己日弟的生

4、活点点滴滴发布和大家分享。个人发表的微博以14()个字(本文以新浪微博为主)为界限,可以加入标题、表情、URL、图片、链接等丰富的信息而著称。正是因为微廨这种开放性的特点,使得它的用户剧增。随着微博的快速发展,微博的历史信息量也越來越大,加上微博独特的特点,这使得我们在想了解我们感兴趣的人和事悄的时候,困难加剧。所以木文根据微聘的特点,进行事件提取研究,实验也充分的证明了本文算法的冇效性。1相关工作国内外对微礴事件捉•取的研究逐渐成熟,1改进的TF-1DF方法,S.Phuvipadawat等首先用TFIDF方法将文本转换到向量空间模型,并提出了一种基

5、于命名实体加权的改进TFIDF方法;许莉等人引入了信息爛与信息増益的概念,用以解决词语在类别间的分布不均;张保富等考虑到特征项在类间和类内的分布情况的不足,提出一种结介信息爛的TFIDF改进方法;2.微博分段的方法,AixinSun等提岀了基于分段的Tweets事件检测算法3.基于索引的方法,姚俊杰,袒兵等人提出了基于索引结构的方法4主题模型的方法,Jiweili等提出了基丁•时间线的LDA综合模型方法。但是以上方法没有充分考虑到微博的特点,木文根据微博特点,把微越特点进行细分化,通过改进的TF-IDF提収出关键字,再通过提収的关键字,把微博细分的特

6、点逐个进行和似度计算,最后通过综合相似度计算得出聚类结果。2个人微博特点的事件提取算法个人微博特点的事件提取算法分为以下儿部分:(1)对微博数据进行预处理,提取出微博特点(2)针对微博待点和关键字的定义对预处理的数据进行改进的TF-IDF计算主要运用了标签(Hashtag)Url对应的标题、词长、词在每条微博中的分布爛。(3)提取关键字主耍提取标签关键字、Url对应的标题关键字和文木关键字。(4)根据微陣特点对微博进行综合相似度计算主要包括:标签相似度、Url对应标题柑似度、文本柑似度、流行和似度、时序相似度。(5)改进的聚类方法提取事件个人微博特点

7、的事件提取算法流程图如图1所示:收稿日期:xxxx-xx-xxo基金项目:教育部春晖计划项目(00110310)作者简介:高永兵,副教授,主研领域:数据管理,信息检索。陈超.硕士生。熊振华,硕士生。王宇,硕士生。微憫数据1勺J:T14Ur相似度计舞丿预处理1/id押论发布时河1di30ISSO2014-11-02・-庆取®ijl文*,uH所对应的怀fftid微ts溯施评论••通文*Vrl1dxi412di.30ISSO2O14<11>92分词片去烁傅用词.去陥将X冯号id评论文WHashtagVrl1bl.bXHnul.u2…un3015502014

8、-11-92・_・•-•豐臬咐*fl文本仃标签411相411似似似度相似度计3.1预处理(1)去除个人微博中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。