微博搜索的关键技术研究

微博搜索的关键技术研究

ID:33625756

大小:8.45 MB

页数:113页

时间:2019-02-27

微博搜索的关键技术研究_第1页
微博搜索的关键技术研究_第2页
微博搜索的关键技术研究_第3页
微博搜索的关键技术研究_第4页
微博搜索的关键技术研究_第5页
资源描述:

《微博搜索的关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学技术大学博士学位论文作者姓名:学科专业:导师姓名:完成时间:爻嘭哆‘砂段亚娟计算机应用技术沈向洋教授顾乃杰教授二。一四年五月UniversityofScienceandTechnologyofChinaAdissertationfordoctor’SdegreeResearchonKeyTechnologiesofMicroBIogSearchAuthor’SName:Speciality.:CompeerApplicationTechnologySupervisor:Prof.Heung—YeungShumProf

2、.NaijieGuFinishedTime:May,2014中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文中作了明确的说明。作者签名:{塞童鳋中国科学技术大学学位论文授权使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被

3、查阅和借阅,可以将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。,曰公开口保密(——年)作者签名:垂垒羔经签字日期:导师躲塑堡垒签字日期:!!芏:i:兰摘要微博迅速成为一种重要的实时信息源,其搜索存在两个重要问题:查询词与微博消息的相关性计算、搜索结果整理。相关性计算从内容、语义上衡量消息与查询词之间的相似程度:搜索结果整理以简明有序的方式组织消息,克服冗余性和不规范书写,主

4、要整理方式包括分类、摘要等。本文以推特为例,探索了微博搜索研究任务中几个重要问题:相关性计算、查询结果分类、摘要和对比话题摘要。针对相关性计算问题,提出两种消息排序模型,分别基于学习排序和递归神经网络语言模型。与目前微博搜索服务中的相关性排序算法比较,前者显著提高了消息序列的相关性,后者缩短消息在计算语义相关度时的鸿沟,提高查询结果的覆盖率。基于学习排序的模型系统研究了文本相关性特征、微博书写特征和微博的作者权威度特征在微博相关性计算中的作用。基于递归神经网络语言模型的排序模型将语义相似度引入消息的相关性计算中,在词向量粒度

5、上计算消息之间的词法语义相似度。针对搜索结果分类问题,提出基于消息关联关系的协同分类模型,为微博定义了一个话题分类体系。与基于特征的基准模型相比,该模型的准确率和F值分别提高了5.38%和4.74%。该模型将消息之间的两种共享话题关系应用到三种基于图的协同分类模型中,考虑本地特征和来自关联消息的类别分布,同时为一批微博消息分类,降低数据稀疏的影响,极大地提高了分类器的精确率和召回率,其中采用共享话题标签(#hashtag)关系的迭代分类算法结果最优。针对搜索结果摘要问题,提出基于时间轴的关联交互自增强式摘要模型。与基于图的基

6、准模型比较,该模型的ROUGE一1平均提高了14%。给定查询词的搜索结果,该模型按照时间顺序将其划分成若干子话题,同时考虑文本内容、作者社会影响力和文本质量计算消息的重要度,根据重要度和多样性对微博消息进行排序和抽取以生成摘要。实验表明,作者的社会影响力和文本质量有效地改进了文本重要度的度量。针对对比话题摘要问题,提出基于消息关联关系的最优化对比话题摘要模型。与基于内容相似度计算的基准模型比较,该模型的对比属性覆盖率和比较消息对准确率分别提高了14.7%和11.6%。该模型充分利用消息之间的相似度关系和三种共享话题关系,采用

7、网页排序算法和SimRank方法,最大化消息对摘要的内部对比性和话题代表性,概括对比查询词搜索结果中的共同点和不同点生成摘要。关键词:微博搜索相关性排序查询结果整理分类摘要对比摘要IIABSTRACTMicmblogbecomesaveryimportantsourceofreal—timeinformationquickly.Thereal'etwokeyproblemsinMicroblogsearch:relevancerankingoftweetsgivenasearchquery,andsearchresultre

8、organization.Relevancerankingestimatesthesimilaritybe-tweentweetsandquerybasedoncontentandsemanticcorrespondence.Searchresultreorganizationoverco

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。