欢迎来到天天文库
浏览记录
ID:34670552
大小:4.55 MB
页数:145页
时间:2019-03-09
《基于多种特征信息检索和网络挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、一I海交通人学博.L学位论文基于多种特征的信息检索和网络挖掘摘要信息检索和文本挖掘是近十几年快速发展的研究领域。传统上,给定一个用户的信息需求(InformationNeed)以及一个待检索的文档集和,信息检索研究如何找到一些合适的文档来满足用户的信息需求。和信息检索有所不同,文本挖掘(TextMining)旨在帮助人们从文本的分析中获取一些基本的信息,如本文属于哪一类型的文章,中心思想是什么,讲述了哪些不同的议题等等。其技术泛指信息抽取,文本分类,文本聚类,文本摘要等从大量文本-:I:,获取有月j信息的技术。万维网正
2、以人们难以想缘的速度迅猛发展。关于Web发展的最新评估报告指出,每周有大约8%,也就是3.2亿张新网页诞生。超链接的变化更为迅速,每周都有25%新链接产生,一年后80%的旧链接都被新的所取代。动态性如此之强,规模扩大如此之快的万维网导致网络信息过载(InformationOverload)问题日益突出。人们开始考虑使用信息检索和文本挖掘的技术来克服这些困难。然而,传统的模型和方法在应用到万维网的同时,需要根据新的数据形式加以演变。本文讨论了如何利用数据的多种类型的特征,提高网页检索、科技文聩检索和文本聚类的性能。该文主
3、要的创新和贡献在于:1.首先对数据的多种特征进行定义和分类。文中所定义的数据多种特征是指可从不同的角度刻画对象在特定环境下的行为的不同类型的信息源。例如在传统的文本检索中,除了单词或者词组的分析以外,片段(passage)的结构特征通常用于考虑关键词问的关联性;在科技文献的检索中,引用关系(citation)很好的被用于发现相关一I:海交通人学博二L学位论文摘蟹和权威论文。结构和引用都是词语本身的词义所无法提供的信息。到了万维网的时代,网页有了更多丰富的信息,成为了一种典型的多种特征数据:网页的统一资源定位器(URL)
4、,锚文本(anchortext),超文本标记语言(HTML)标签和主题块结构(topicblock)等都可用于信息的检索和挖掘。如何有效的利用这些特征需要进一步研究。2.多种特征对信息检索的改进,包括利用文本片段结构特征,网页主题块特征和科技文献的引用特征改善信息检索。我们首先介绍传统检索中文本片段的特征在对等环境中的应用。然后将普通文本中的片段扩展到网页中的块结构,进而探讨块结构对基于概率语言模型检索的影响,并提出一种基于块状结构的语言模型(Block—basedLanguageModeling(BLM))。在BLM
5、的后续工作中,我们提出自动化的方法测量块结构的重要程度,并考虑用户的信息需求,利用伪相关度反馈的方式进一步修改块的重要性。在该部分的最后,我们讨论了科技文献中引文分析的改进。一些相关工作将内容和引文分析结合起来提高相似度的计算,可是这两种特征并未互相增强以获得更好的效果。为了解决这个问题,我们提出一种新的算法,主题敏感的相似度传播(TopicSensitiveSimilarityPropagation(TSSP)),更有效的将内容相似度集成到相似度传播的过程中。此外,我们还将TSSP的基本思想扩展,将文献中不同部分的内
6、容利用权重加以区分,统一称为多特征的相似文献检索增强算法。3.多种特征对文本挖掘的改进,包括如何提高文本聚类和基于文本的图片聚类。聚类在某些场景下是一种切实可行的组织方式,包括浏览规模庞大的文档集合,或者是搜索引擎返回的结果。对于这项技¨摘要术而言,根据不同的网页特征进行挖掘可获得不同的聚类结果,我们期望为用户提供一个统一的,甚至是效果更好的结果。我们提出两种新的算法:第一种是基于多种特征的增强式聚类(MFRC)。该算法没有使用所有特征空间的相似度结合,而是通过一种特征空间中的聚类中间结果来增强其它空间内的分析。第二种
7、是我们称其为聚类中的多种特征共同选择(MFCC)。该项研究是MFRC的后继工作,它同样使用了一种特征空问中的中间聚类结果帮助其它空间中的聚类。在该部分的最后,我们阐述了利用网页块结构分析图片信息的方法。考虑到数据记录类型的网页中有很多潜在信息可以挖掘,我们为每条记录对应的图片抽取具有良好的代表性和区分性的关键词。然后我们使用这些词语构造层次表示树(HierarchicalRepresentationTree)和层次化的聚类算法,使得用户可以更方便的浏览图片信息。对于上述提出的模型或方法的改进,我们都通过大量的实验加以验
8、证,并对最后的结果进行深入分析。实验结果表明,在大多数情况下,利用不同类型特征的相互增强,可以获得比单独使用这些特征更好的效果。关键词:多种特征,信息检索,网络挖掘,互增强,主题块,特征选择III上海交通大学博二L学位论文摘要MULI-TYPEFEATURESBASEDINFoRMATIONRETIUEVALANDWEBMININ
此文档下载收益归作者所有