基于向量空间模型的文本检索系统.pdf

基于向量空间模型的文本检索系统.pdf

ID:52768714

大小:99.09 KB

页数:3页

时间:2020-03-30

基于向量空间模型的文本检索系统.pdf_第1页
基于向量空间模型的文本检索系统.pdf_第2页
基于向量空间模型的文本检索系统.pdf_第3页
资源描述:

《基于向量空间模型的文本检索系统.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、188微电子学与计算机2006年第23卷第6期基于向量空间模型的文本检索系统王晓黎王文杰(中国科学院研究生院,北京100039)摘要:文章介绍了向量空间模型的基本原理,分析了文本检索系统常用的性能评估标准。基于向量空间模型、自动术语提取、相关性排序等技术实现了一个高效的文本检索系统,阐述了系统的架构。实际运行状况表明,该系统能够满足中小企业的网站站内搜索的需求,提高网站的访问效率。关键词:向量空间模型,VSM,文本检索,信息获取中图法分类号:TP31文献标识码:A文章编号:1000-7180(2006)06-188-03ADocumentSearc

2、hingSystemwithVectorSpaceModelWANGXiao-li,WANGWen-jie(GraduateSchool,ChineseAcademyofSciences,Beijing100039)Abstract:TheprincipalofVectorSpaceModelispresentedandcomprehensivelystudied,andweanalyzetheperfor-mancecriteriasofdocumentsearchingsystem.WithVSM,AutomaticTermExactionan

3、dsimilarityranking,Wedevel-opedaneffectivesystem.Thearchitectureofthesystemispresented,basedontherunningstateofthesystem,oursys-temsatisfythesearchingrequirementofmiddlesizedcompany’swebsite.Keywords:Vectorspacemodel,VSM,Textindexing,Informationretrieval1引言加。一般经过预处理以后,将文档中具有明显

4、标志随着Web上文本数量的不断增加,个人和组织性作用的词作为索引项[1]。对初始文档dj=tj1tj2...tjNj,拥有的的文档数量也越来越多。信息获取技术主要其中Nj是文档dj含有词的数目,经过预处理后dj′=是要处理从数据集合获取想要的信息。从文档库中tj1tj2...tjNj′,其中Nj′≤Nj,预处理可以很好的减小计算获取信息的过程包括文本的表示、文本的检索和检量。将文档表示成索引项权重的向量是最常用的方索效率的评估过程,其中涉及到的很多技术都是研式,这就是向量空间模型。究热点。对文本的有效的表示和高效的检索算法能2.1向量空间模型和相关

5、性计算够很好的提高信息获取的效率。向量空间模型通过分配权重给文档(或查询)另一方面,电子商务和电子政务的推广,网站的索引项。将文档表示为权重的向量Wj=&w1j,w2j,内容的增多,有必要在网站上增加搜索功能以提高...,wMj’,其中wij表示索引项ti在文档dj中的权重。访问效率,更好的宣传组织和企业提供帮助。怎样wij的计算采用TFIDF加权策略,具体的计算公式可部署简单易用和占资源少的搜索部件也一直是大以表示为:家关注的问题。Nwij=(1+log(tf(ti,dj)))·(log(1+))(1)df(ti)2相关工作其中,tf(ti,dj

6、)为词ti在文档dj中出现的词数;在信息检索模型中,文档是由一组有代表性的N为所有要聚类的文本的个数;df(ti)为包含有词ti的文档个数。词(称为索引项)来描述的。通常需要将要处理的文同时在检索时也需要将查询Q表示成权重的本集合中含有的所有的词抽取出来,所有的词的集向量以计算查询与文档的相似度,查询表示公式为合T=(t1,t2,...,tM),其中M表示文本集合中含有的词的个数,M一般都是随着文本集合的不断变化增Q=&w1q,w2q,...,wMq’。这种权重计算方式中wij的大小与ti在文档dj中出现的次数成正比,而与ti在整收稿日期:2005

7、-06-102006年第23卷第6期微电子学与计算机189个文本集合中出现的次数成反比。对wij的计算方示准确率和召回率权重相同,此时:式有一些变形,可参考文献[1,2]。相似度的计算公2prF1=(5)式表示为:p+rM!wki×wkj3系统实现和运行状况k=1Sim(Q,dj)=MM(2)在将文本进行预处理的基础上,将文本表示为22"(!wki)(!wkj)向量,结合自动术语提取等技术,我们实现了文本k=1k=1检索系统,系统能够对检索结果按照相关度排序,这种相似度计算是通过考察权重向量的余弦相关度的计算按照式(2)。夹角实现的。还有不同的计算

8、方式,可参考文献[1]。3.1系统架构2.2自动术语提取技术系统的架构可用图1表示。术语是在特定专业领域中一般概念的词语指

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。