欢迎来到天天文库
浏览记录
ID:34150480
大小:4.03 MB
页数:69页
时间:2019-03-03
《基于文本和可视特征融合的主题模型检索技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号学号M201172480学校代码10487密级公开硕士学位论文基于文本和可视特征融合的主题模型检索技术研究学位申请人:辛孟莹学科专业:计算机软件与理论指导教师:潘鹏答辩日期:2014年1月20日万方数据AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofMasterofEngineeringResearchonRetrievalTechniquesBasedonFusingTextandVisualFeaturesforTopicModelCandidate:Me
2、ngyingXinMajor:ComputerSoftwareandTheorySupervisor:PengPanHuazhongUniversityofScienceandTechnologyWuhan430074,P.R.ChinaJanuary,2014万方数据独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学
3、位论文作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□,在_______年解密后适用本授权书。本论文属于不保密□。(请在以上方框内打“√”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日万方数据华中科技大学硕士学位论文摘要传统的文档检索包括基于关键字的检索和基于内容的检
4、索,基于关键字的检索直接通过标注文本的匹配来完成文档匹配,但标注的主观随意性大,检索效果不好;基于内容的检索利用多媒体的底层可视特征如形状、颜色、纹理等,对特征进行分析匹配完成文档匹配,但缺乏对用户查询的语义理解。相对而言,主题检索通过挖掘文档底层隐藏的语义信息进行文档匹配,可以实现语义检索,已成为各大浏览器的研究对象。鉴于多媒体文档如图像、视频、音频、网页文档都采用多个模态的信息来描述文档,为了改善检索的效果,将多个模态信息进行融合。主题模型中以潜在狄利克雷分配的假设最为完整,而潜在狄利克雷分配模型常用于解决标注问题,本次研究将多模态融合的潜在狄利
5、克雷分配模型用于信息检索。潜在狄利克雷分配模型基于词袋假设,采用吉布斯取样方法使得假设分布收敛,计算出文档的主题分布概率,再根据主题分布采用信息散度进行相似度计算。以图像检索为例,将标注文本和底层特征融合的主题模型有早融合和晚融合方式,早融合直接对两种模态特征进行建模,晚融合对两种模态检索结果进行组合重排序。采用视觉对象分类标准数据集完成了单模态主题检索、文本和底层特征早期融合主题检索、晚期融合主题检索实验,实现了单模态、多模态图像检索原型系统。早期融合方法中将机器智能分类模型用于图像检索并提出了两层的主题模型,实验验证分类模型比直接融合模型有更好的
6、效果,两层融合模型和改进的直接融合模型有相当的效果,还说明了晚期融合比早期融合有更好的检索效果。关键词:潜在语义,潜在狄利克雷分配模型,吉布斯取样,多模态融合,信息散度I万方数据华中科技大学硕士学位论文ABSTRACTText-basedretrievalandcontent-basedretrievalareusuallyusedinmultimediaretrieval.Text-basedretrievalreliesontextfeatureswhichderivedfromownersorusers,yethasunsatisfactory
7、retrievalresultsforthesubjectivityofownersandusers.Content-basedretrievaltakesadvantagesofthecontentofmultimediasuchasshapeandcolor,butcontentscannotdescribethesemanticofmultimediaormeaningsofquerysentence.Onthecontrary,topicmodelsuseaprobabilisticmodeltofindtheco-occurrencepat
8、ternsoftermsthatcorrespondtosemantictopicsinacollectio
此文档下载收益归作者所有