基于半监督流形学习web信息检索技术的研究

基于半监督流形学习web信息检索技术的研究

ID:32752826

大小:9.01 MB

页数:121页

时间:2019-02-15

基于半监督流形学习web信息检索技术的研究_第1页
基于半监督流形学习web信息检索技术的研究_第2页
基于半监督流形学习web信息检索技术的研究_第3页
基于半监督流形学习web信息检索技术的研究_第4页
基于半监督流形学习web信息检索技术的研究_第5页
资源描述:

《基于半监督流形学习web信息检索技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浙江火学博t:学位论文摘要在Web2.0时代,万维网逐渐由一个海量信息存储库发展成为全球用户参与、分享和交互的平台。这一方面促使万维网卜各种复杂类型数据(图像、音频、视频等)急剧增加;另一方面,用户在Web信息检索方面的个性化需求也不断增长。有效支持复杂类型数据检索和检索结果的个性化成为当前Web信息检索技术所面临的两大挑战。本文对基于半监督流形学习的Web信息检索技术进行了探索和研究。半监督流形学习技术基于流形数据假设,利用f}l已标注数据和未标注数据所共同体现的内在流形结构,来构建更有效的学习模型。在

2、各种Web信息检索应用中,各类相关数据通常分布在高维外部空间中的子流肜结构上,这为半监督流形学习技术提供了广阔的用武之地。在Web2.0时代,各类Web2.0心用将产生大量的用户自主创造内容(UGC)。这些UGC数据包含了很多用户个性化信息,有效利用这砦数据是实现Web信息检索个性化的关键。但是,相比于力.维网上的海量信息,能有效辅助个性化检索的用户反馈信息显得非常稀缺。半监督流形学习技术利Hj数据的流形分布特征,让我们在Web信息检索中更加充分的利用用户反馈,实现各类数据的有效检索,更好的实现检索内容个

3、性化。在本文中,我们在对半监督流形学习技术在以下Web信息检索相关领域中的应用进行了研究和探索:1.基于内容的图像检索(CBIR):引入用户反馈是解决CBIR中“语义鸿沟”问题的有效手段,但这义给图像检索带来“维度灾难”I、uJ题。为了解决这个l、uJ题,本文使用核技术对最大边缘投影算法(MMP)进行非线性扩展,提出了基于核的最大边缘投影算法(KMMP)。KMMP将图像子流形映射到一个低维子空间,更好的实现高度非线性流形数据的降维,有效提高图像检索的精确度。2.Web新闻人脸检索:大部分新闻都是和人相关的

4、一些故事,凶此根据特浙江人学博lj学位论文摘要定的人物对相关的新闻文本和图片进行检索是一种很自然的需求。在新闻人脸检索中,人工标注的代价往往较高;因此,现有的方法都足在文本检索的基础上,使用无监督学习技术对人脸数据聚类来检索新闻人脸。如果属于同一个人的负样例图片比较多,无监督的方法会返回大量的错误结果。本文提出了一种基于半监督流形排序的新闻人脸检索方法,利用人脸数据分布的流形几何特征,在检索过程中引入用户相关反馈,实现更加精确的新闻人脸检索。同时,用户相关反馈的引入,也有效解决了无监督方法在属于同一个人的

5、负样例图片较多的情况下检索精度差的问题。3.网页文档摘要:在社交网络中,用户在网页上标注的标签既是对相关内容的高度概括,也是用户对感兴趣内容的标注。这使网页标签成为网页摘要的良好素材。本文通过使用网页标签,提出一种以抽取用户感兴趣内容为主的社会化摘要方法。首先,我们在三核协

6、一J标签模型(TripartiteCollaborativeTaggingModel)的基础上,通过分析用户标签行为,构建一个体现数据流形分布特征的加杖图。然后,我们使用线性近邻传递方法实现在加权图上的用户兴趣传播,使得产生的网页摘要

7、有效聚焦于用户感兴趣的内容。4.新闻网页标题识别:传统新闻网页标题识别方法都是基于模板的,必须为不同的模板丌发小同的包装程序(Wrapper),而且容易受模板更新的影响。本文提出一种基于视觉效果的新闻网页标题识别方法,有效消除标题识别的模板依赖性。在使用VIPS算法对新闻网页分块的基础上,我们抽取新闻标题块的视觉特征和部分内容特征,构造了一个标题块数据的流形空间。我们通过在这个流形特征空I、UJ中应用半监督流形排序算法,实现了对新闻标题块较为精确的识别。关键词:Web信息检索,半监督流形学习,降维,流形排

8、序,Web图像检索,网页摘要,人脸检索浙江人学博1:掌f证论文AbstractThedawningofWeb2.0witnessesthegradualevolutionoftheWorldWideWebfromavastinformationrepositoryintoaworld-wideplatformforuserparticipation,sharingandinteraction.ThisleadstOafastgrowthofheterogeneousdataontheWebsuchasim

9、ages,audioclips,videoclipsetc.aswellasanincreasingdemandforpersonalizedWebinformationretrieval.Asaresult,heterogeneousinformationandpersonalizeduserdemandsbecometwomajorchallengesforWebinformationretrieval.Inthisthe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。