欢迎来到天天文库
浏览记录
ID:28053031
大小:151.18 KB
页数:8页
时间:2018-12-07
《基于个人微博特点的事件提取研究(论文)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于个人微博特点的事件提取研究高永兵陈超熊振华王宇(内絷古科技大学信息工程学院包头014000)摘要个人微博在事件提取上大多都是运用文本进行相似度计算最终达到聚类结果,而没有充分的考虑到微博特点,针对微博标签、URL、时间的特点,提出了一种基于微博特点的事件提取算法,该算法针对微博的特点进行TF-IDF的改进,并加入标签相似度,URL相似度,进行综合相似度计算,最后按时间先分段后合并的改进k-means聚类方法得出聚类结果。实验结果表明,基于微博特点的事件提取算法对微博关键字提取和事件提取的精确度有明显的提高。关键词微博特点事件提取综合相似度中图分类
2、号TP3文献标识码ADOI:10.3969/j.issn.1OOO-386x.2013.01.001ARESEARCHOFEVENTSDETECTIONOFPERSONALMICRO-BLOGBASEDONMICRO-BLOGCHARACTERISTICGaoYongbingChenChaoXiongZhenhuaWangYu(SchoolofInformationEngineering,InnerMongoliaUniversityofScienceandTechnology,Baotou014010,InnerMongolia,China)Abs
3、tractIndividualmicro-Blogontheeventaremostlyextractedusingtextsimilaritycalculationultimatelyachieveclusteringresults,butitdoesn’tfullyconsiderthefeaturesofmicroblog.Accordingtothecharacteristicsmicroblogginghashtag,URLandthetime,thispaperputsforwardaalgorithmofeventextractiono
4、fmicroblogbasedonmicroblogcharacteristic.thisalgorithmputsthemicro-blogcharacteristicsintoTH-IDFimprovementanditaddsHashtagsandURLsimilaritytomakecomprehensivesimilaritycalculation.Finally^accordingtoimprovedk-meansclusteringmethodthatusingsegmentstimeandmergestime,thispaperget
5、sclusteringresults.TheexperimentalresultsshowthatthealgorithmbasedonMicro-blogcharacteristicseventextractionhasimprovedobviouslyfortheaccuracyofMicro-blogkeywordextractionandEventextraction.KeywordsMicro-BlogcharacteristicEventsdetectionComprehensivesimilarity在这个信息发展飞速的年代,我们渴羶了
6、解我们感兴趣的1人和事。企业之间想相互了解自己的竞争对手,公司员工想了解老板的倍息,追S族想了解自己喜欢的明S,个人想了解自己的亲戚朋友的近况。微溥却飧载着我们个人的想法而诞生。微博作为一种新型的社交网络,发肢急速,川户可以通过WEB、移动奔户端等途径将自己日常的牛活点点滴滴发布和大家分享。个人发表的微博以140个字(本文以新浪微博为主)为界限,可以加入标题、表情、URL、阁片、链接等丰富的信息而茗称。正址因为微博这种开放性的特点,使得它的用户剧增。随着微傅的快速发展,微傅的历史信息ft也越来越大,加上微博独特的特点,这使得我们在想了解我们感兴趣的人
7、和事情的时候,困难加剧。所以本文根据微W的特点,进行來件提取研究,实验也充分的证明了本文算法的冇效性。文空格或两个英文空格隔开,在城市名和邮编之间使用一个英文空格隔开,不能用逗号。1.1摘要使用“摘要”样式。中文摘耍需写成200字左右的篇幅,摘耍内容不能太简单,要有研究H的、方法、结果和结论等。摘要请采川第3人称的写法(不耍用“本文”、“我们”),且放在一个段落中。1.2关键词提供3-8个关键词,之间用一个屮文空格或W个英文空格瞞开。1.3英文题目使用“英文题目”样式。英文标题全部人写,一般不耍超过两行。1.4英文署名使用“英文作者”样式。两个姓名屮
8、间川两个英文交格隔开。姓氏第一个字母大写,肀、双名第1个字母大写,双名屮间不加连字符。例如:李伟LiWei张
此文档下载收益归作者所有