基于词条空间矢量Web信息设计

基于词条空间矢量Web信息设计

ID:38207312

大小:372.33 KB

页数:3页

时间:2019-06-01

基于词条空间矢量Web信息设计_第1页
基于词条空间矢量Web信息设计_第2页
基于词条空间矢量Web信息设计_第3页
资源描述:

《基于词条空间矢量Web信息设计》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、情报杂志2007年第10期JournalofInformationNo.10,2007*基于词条空间矢量的Web信息混合搜索引擎设计ADesignofWebInformationRetrievalMixedEnginesBasedonTermsSemanticVectorSpace聂兴信刘书香席一凡(西安建筑科技大学西安710055)摘要针对如何从丰富的网络信息资源中进行准确、快速检索有用信息的问题。介绍了基于词条空间矢量搜索的基本理论,设计了基于词条空

2、间矢量搜索的Web信息检索系统模型,并采用Java语言完成了基于词条空间矢量的Web信息混合搜索引擎的设计,应用实验证明,该方法比单一搜索引擎具有更深入、更细致的站内全文搜索能力,比关键词标引具有更准确的文档内容表达能力,在基于内容的查询和信息过滤等方面有很好的应用前景,为实现网上信息检索的个性化服务、主动信息服务,为进一步提高Web信息查询的查全率和查准率提供了一种新的思路和方法。关键词Web信息检索词条空间矢量隐性语义混合搜索引擎如何从Internet浩瀚的网络信息资源中,快速、全面而

3、准确地A={aij}1∃i∃m,1∃j∃n(1)获取检索者所感兴趣的信息,一直是网站建设者最关心的问题之其中,矩阵的元素aij为特征项ti在文档dj中的出现频度或权[1]一。搜索引擎作为最有效、最常用的检索工具,更是研究和应重。矩阵A可以分解为三个矩阵:用的重点。但在实践中发现,搜索引擎采用引擎数据库,其基本A=UWV(2)结构为主题词、页面链接地址等,相对比较简单,搜索引擎基本上其中,矩阵W是对角线矩阵,矩阵U和矩阵V两个矩阵的列解决了在庞大的Internet信息库中较难发现信息的问题,能够为向量

4、都是正交归一化的。U是m#r矩阵,称为左奇异值矩阵,用户查找到一定的有用资源,但相对于整个Internet来说,是极不V是r#n矩阵,称为右奇异值矩阵,r是矩阵A的秩。全面的,其资源覆盖度、检索精度、检索结果可视化和可维护等诸这种分解叫做奇异值分解(SingularValueDecomposition,简称[5]多方面还远远不能令人满意。单个常规搜索引擎更是很难获得SVD),如图1所示:全面的检索结果,并且不同的常规搜索引擎搜索的结果有很大不同,这就导致了一种新型的、集成多搜索引擎搜索结果为其所用

5、的元搜索引擎的出现。元搜索引擎的出现,促使查询的查全率和图1奇异值分解图查准率得到一定程度的提高,但并不是太显著。把矩阵W的对角线上元素沿对角线从大到小排列,保留矩智能信息检索技术(IntelligentInformationRetrieval)是基于目阵W的r个对角元素的前k个,后r-k个置0,可以得到一个新前Internet上信息的无组织、异构分布和动态的特点提出的,用于的近似分解:解决信息检索中信息过载和资源迷向等问题,实现Internet[2][3]Ak=Uk#Wk#Vk(3)上信息个性

6、化主动服务。基于词条空间矢量的搜索也是一由于Wk矩阵的前k个对角线上的元素对应的特征向量p1,种基于概念的检索模型,它是以Dumais为首的研究小组提出的[4]p2,∀,pk是两两正交的。分解结果说明:可以从向量t1,t2,∀,tm被称为隐性语义索引的方法为基础。试图绕过自然语言理解,运用统计的方法获得文档潜在语义概念空间结构,利用概念出发,找到另一组彼此不相关的向量p1,p2,∀,pk。再利用推导出的正交的向量来表示文档,计算查询与文档的相关度。该变换不标引取代关键词标引。它将关键词!文档关联矩阵

7、进行奇异分仅弥补了向量空间模型理论上的不足,而且,它还为向量空间的解,从中抽取出语词的用法特征,以消除语词用法所造成的影响。降维提供了一种很好的途径。1词条空间矢量搜索的基本理论对于用户的查询表示,类似地将其映射成一个文档(称为虚把每个文档可以表示成词条空间的矢量Di=(Wi1,Wi2,∀,拟文档)q0,q0为1#m矩阵,利用下列公式将查询转化为K维空T间的向量:Wim)(t1,t2,∀,tm),每个词条表示为文档空间的矢量tj=T-1Tqk=q0#Uk#Wk(4)(W1j,W2j,∀,Wnj)(

8、D1,D2,∀,Dm),这样词条与词条之间的类似地,任何文档D都可以转化为K维空间上的向量Dk。这相似性就可以用向量夹角余弦来计算。首先,以词条(terms)为样,要计算查询与检索文档的相关度,实质上就是计算两个文档行,文档(documents)为列组成一个词!!!文档大矩阵(matrix)。qk与Dk的相似度,将最相似的文档挑选出来。设一共有m行n列,矩阵名为A,则矩阵A是一个m#n的矩阵。基金项目:陕西省自然科学基金资助项目(编号:2005F8)。作

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。