基于主题划分的微博检索研究

基于主题划分的微博检索研究

ID:33231407

大小:909.75 KB

页数:56页

时间:2019-02-22

基于主题划分的微博检索研究_第1页
基于主题划分的微博检索研究_第2页
基于主题划分的微博检索研究_第3页
基于主题划分的微博检索研究_第4页
基于主题划分的微博检索研究_第5页
资源描述:

《基于主题划分的微博检索研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号学号M201172509学校代码10487密级硕士学位论文基于主题划分的微博检索研究学位申请人:高原学科专业:计算机应用技术指导教师:文坤梅副教授答辩日期:2014年01月17日万方数据AThesisSubmittedinPartialFulfillmentoftheRequirementsFortheDegreeoftheMasterofEngineeringTopicBasedInformationRetrievalonTwitterCandidate:YuanGaoMajor:ComputerApplicationTechnologySupervisor:A.P.WenKunm

2、eiHuazhongUniversityofScience&TechnologyWuhan430074,P.R.ChinaJanuary,2014万方数据独创性声明本人声明所呈交学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文中不包含任何其他集体或个人已经撰写或发表过的研究成果。对本文研究做出贡献的集体和个人,均已在文中以明确方式标明。本人完全意识到,本声明的法律结果由本人独自承担。学位论文作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的各项规定,即:学校有权保留并向国家有关机构或部门送交论

3、文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的部分或全部内容编入有关数据库进行检索,可以采用缩印、影印或扫描等复制手段保存和汇编本学位论文。保密□,在_____年解密后适用本授权书。本论文属于不保密□。(请在以上方框内打“√”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日万方数据华中科技大学硕士学位论文摘要目前流行的在线社交网络服务特别是微博客正在改变信息的传播和共享模式。微博服务允许用户轻松的发布和接收消息。推特(Twitter)每天有超过1亿用户发布2.3亿条微博。与其将查询提交给传统的搜索引擎,Twitter用户更愿意登录微博来检索新闻、

4、URL、和好友发布的评论。而微博搜索也已经成为用户获取热点事件信息的重要渠道。针对用户在微博上搜索时主要关注的是热点事件和热点主题,提出了一个新的微博搜索解决方案,该方案能较好的完成主题搜索的任务。首先将微博按其所属主题进行分类,然后在分类后的结果上进行主题-微博两级的索引构建。基于微博中的标签(Tag)提出了一个新的微博分类方法。首先统计微博中Tag的共现关系,在此基础上利用互信息算出Tag的相似度矩阵。使用聚类算法对Tag进行聚类分析得到若干Tag类别。然后将数据集中带有Tag的微博分配到相应的类中得到微博的类别。使用上述基于Tag构造的微博类别作为训练数据,构造一个微博的分类器,对其

5、余不带Tag的微博进行分类处理,得到最终的微博主题划分(每个类别代表一个主题)。基于上述的微博主题划分结果构建主题-微博两级索引结构。首先对每一个主题的质心向量构建索引形成主题级别索引,然后对每个主题下的微博进行索引构建。进行结构检索时,先根据用户查询在主题索引中检索相关主题,并对主题进行相关性评分,然后在每个相关主题下检索相关微博,一条微博的最终得分等于该微博所属主题得分乘以该微博在主题内的得分。根据该得分进行排序,并将最终排序结果返回用户。通过在Twitter数据集上的实验与测试,验证了方案的可行性及有效性。根据检索系统的一般评估方法,提出的方法与其它常用的检索方法相比效果有较明显的改

6、善。关键词:Twitter,微博检索,短文本处理,两级索引构建I万方数据华中科技大学硕士学位论文AbstractThepopularonlinesocialnetworkingservices,especiallymicrobloggingservice,arechangingthewaywhichinformationdisseminatingandsharing.Microbloggingservicesallowuserspublishandreceivemessagesfreelyandinstantly.Twitterhasmorethan100millionuserspubli

7、shing230milliontweetsonasingleday.Insteadofsubmittingtheirqueriestotraditionalsearchengines,Twitterusersaremorewillingtoretrievenews,URLsandusercommentsthroughtwittersearch.Themicroblogsearchhasbecomeanimportantc

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。