基于微博的热门话题提取与利用研究

基于微博的热门话题提取与利用研究

ID:35064900

大小:4.33 MB

页数:62页

时间:2019-03-17

基于微博的热门话题提取与利用研究_第1页
基于微博的热门话题提取与利用研究_第2页
基于微博的热门话题提取与利用研究_第3页
基于微博的热门话题提取与利用研究_第4页
基于微博的热门话题提取与利用研究_第5页
资源描述:

《基于微博的热门话题提取与利用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、..5..IV综'祭成齋;義i部習賴事嗦.繫常:這'/電娜|.‘,巧'着装r:马驚;儀篆麵餐热、話,^'i擊听.:J..;.'号證對薛;霍薄義i.繼^s穀譯':沪看嚇泉'饒-护r於,.p,考曇;牌诗巧;-\皆戰谭-#磅f-.;/蘇贺.請.r::.璋.奮.:'-祷戶;T一,.;:盛cT^驚.纏中相目互质大竿-這讀.一誤>..;-替減?1,舞rs"式.賢y学位i又;.v一邊..\..,.聲.'.TsI劇..>.;>#V'濛,鑽".」蔚皆''\.:.;请b寄、二旨题暑巧微去情,自9热1「i舌两愚转

2、骼-会3先、-取与3矛U用看开穿巧蔡''读寧.翼:苗。:;載毒§画Wg参:务.繫背宗,!電如究I脚酱."S.::5.销f^讀'心巧;练专巧电i粒^‘卷.猎,1患,研究。方i计r网络应用../邊.-興V%嘴企导U敦^张如'黃:\.嚇陈.业t导加I民;‘-為f-.:安^分‘常l跨'.;.華00、£;毒.iA3:驾朽繼vV.;皆苗;.臻萝:-',巧副rJ遷.?:靜i'3方屬華—;护舅,寶義’燃蠻CW-焉;妾东‘复;叫,則誦这豎.;V少.碑雙;并墨苗篇;:璋,;叫苗:獲觀.可诗4一幹

3、鲁磊-謝持专龍非孩麵.讀‘義靈rr.數'.f觀-零片終:苦讓.if^::.龍苗的襲M;¥乂.;I於替声明本人声明所呈交的论文是我个人巧导师指导下进行的研巧工作及取得的研究成果。尽我所知,除了文中持别化标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研巧成果,也不包含为获得中国地质大学或其它教育机构的学位或证书而使用过的材料一。与我同王作的同志对本研究所做的任何贡献巧邑在论文中作了明确的说明并表示了谢意。:签名I如1女从:舉拜日期关于论文使用授权的

4、说明本人完全了解中国地质大学有关保留、使用学位论文的规定:,即学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可公布论文的全部或部分内容,可^苗采用影印、缩印或其他复制手段保存论文。口公开□保密(年)(保密的论文在解巧后应巧守此规定)7。签名:导师签名),女;化禾曰期:加/j分类号密级中国地质大学(北京)硕士学位论文基于微博的热门话题提取与利用研究学号:2104130009研究生:周传锋专业:电子与通信工程研究方向:计算机网络应用指导教师:张玉清企业导师:陈鹏辉2016年5月ADissertat

5、ionSubmittedtoChinaUniversityofGeosciencesforMasterDegreeBasedontheMicro-blogHotTopicExtractionandUtilizationofResearchMasterCandidate:ChuanfengZhouMajor:ElectronicsandCommunicationEngineeringStudyOrientation:ComputernetworkDissertationSupervisor:Prof.YuqingZhangCompa

6、nySupervisor:SeniorEngineerPenghuiChenChinaUniversityofGeosciences(Beijing)摘要随着互联网科技的发展与成熟,人们可以从网上方便快捷地获取海量的有价值的信息。微博作为一种网上公众社交平台,凭借其庞大的用户群以及快捷的信息传播方式,迅速地崛起,成为人们生活中一个举足轻重的角色。随着关注微博的人数越来越多,用户每天发布的微博也不计其数,其中隐藏着许多热门话题,话题中有国家大事,自然灾害以及许多危害社会的信息。利用计算机高速的计算速度,从海量的信息当中去及时的获取有

7、价值的信息,对于舆情的监控、引导有着重要的意义。微博上的热门话题提取就是对微博的内容进行文本聚类,微博内容有着其自身的特点,其语法结构不受任何的约束限制,因此对其进行文本聚类是一项艰巨的挑战。传统的文本聚类大部分是基于词语来进行处理与分析,微博由于其篇幅的限制,属于短文本,短文本中出现的词语数量很少,容易被干扰,所以本文使用的是基于句子的聚类算法。虽然汉语的形容丰富多彩,但是在有字数限制的情况下,准确的表达一件事情的观点或经过时,会使得很多人在某些描述上出现重复或相似,对于微博来所基于句子来进行文本聚类有着更好的效果。本文深入分析

8、了微博的内容,基于微博的内容特点,选择通过判断句子的相似将微博进行合并,来提取微博的热门话题,基于此提出了CBOS算法。该算法利用了并查集的数据结构,不仅提高了提取效率,也使得提取的结果变得更加准确。对于文本相似性的判断,本文使用编辑距离计算句子的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。