信息检索检索 向量空间模型

信息检索检索 向量空间模型

ID:12512853

大小:28.00 KB

页数:3页

时间:2018-07-17

信息检索检索      向量空间模型_第1页
信息检索检索      向量空间模型_第2页
信息检索检索      向量空间模型_第3页
资源描述:

《信息检索检索 向量空间模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、信息检索检索向量空间模型姓名陈严学号2220122685班级智能科学与技术1班一:算法描述在文本挖掘、搜索引擎应用中,文本的特征表示是挖掘工作的基础,它对文本进行预处理,抽取代表其特征的元数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式。向量空间模型(VectorSpaceModel)是近年来应用较多的文本特征表示方法之一,它是由GerardSlaton等人在1958年提出并发展起来的,是一个关于文献表示的统计模型,具有较强的可计算性和可操作性,已经被广泛地应用于文本检索、自动文摘、关键词自动提取、文本分类和搜索引擎等信息检索领域的各项应用中,并且取得了较好的效果。

2、文献(document):泛指各种机器可读的记录,可指一篇文章或一个网页,也称为文档。项(term):亦称索引项,是用来标引被检索内容的关键词等。项的权重(termweight):对于有n个不同的项的系统,文献D=(t1,t2,,,tn),项tk(1[k[n)常常被赋予一个数值Wk,表示它在文献中的重要程度,称为项tk的权重。相似度(Similarity):指两个文档内容相关程度的大小。确定权重的方法是运用TF-IDF公式,即Wik=tfik/dfk=tfik*idfk,其中tfik为特征项Tk在文档Di中的出现频率,称为项频率;dfk则是文档集D中出现特征项Tk的文档的数量,

3、称为文档频率;idfk为dfk的倒数,称为反转文档频率。相似度是一个函数,它给出两个向量之间的相似程度。常用的方法有:内积(InnerProduct)、余弦(Cosine)。对于二值向量,内积是查询式中的词项和文档中的词项相互匹配的数量;对于加权向量,内积是查询式和文档中相互匹配的词项的权重乘积之和。余弦相似度计算两个向量的夹角,余弦相似度是利用向量长度对内积进行归一化的结果。二:数据描述建立10至15个文件,输入文档集,以供检索。三:算法参数文件、项的权重、tfik、dfk、idfk、相似度四:实验流程1.输入文档集;2.计算词项的特征权重;3.输入要查询的内容;4.计算余弦

4、相似度;5.根据相似度排序,找出相似的文档。五:实验结果实验生成result文件甲中的result.txt文件。六:实验总结向量模型是以假设向量空间的各维之间相互正交(即各关键字之间相互独立)为前提的,因而不可避免地存在由此带来的损失关键字间的相关性的缺点,可它把对文档内容和查询要求的处理简化为向量空间中向量的运算,克服了布尔模型的二值评价的缺点,可以计算出文档与查询式的相关程度,因而可以很容易地进行输出结果的排序,用户相关性反馈机制也很容易实现,尤其是具有对处理海量数据的适应性等种种优点使得它自诞生以来,至今都有很强的生命力。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。