向量空间模型ppt课件.ppt

向量空间模型ppt课件.ppt

ID:58518088

大小:557.50 KB

页数:67页

时间:2020-10-21

向量空间模型ppt课件.ppt_第1页
向量空间模型ppt课件.ppt_第2页
向量空间模型ppt课件.ppt_第3页
向量空间模型ppt课件.ppt_第4页
向量空间模型ppt课件.ppt_第5页
资源描述:

《向量空间模型ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、向量空间模型向量空间模型是最常用的检索模型(Salton等人,1975年)思想:文章的语义通过所使用的词语来表达方法:每一篇文档用一个向量来表达,查询用一个向量来表达,通过向量的方式来计算相似度。查询文档1文档2文档3向量空间模型向量空间模型主要涉及两方面的工作:(1)如何构建一个向量来表示文档中的词项,构建另一个向量来表示查询中的词项.(2)如何

2、来度量任意文档向量和查询向量的相似度网络信息内容安全》讲义/张华平/2010-10向量空间模型——构建向量对于文档集中每一个不同的词项(或概念),我们在向量中只记录一个分量。当词项出现时,就在对应向量的分量处记1;如果词项未出现,就在对应的分量处记0。向量空间模型——构建向量文档:D1D3D2QAA,IIA,I文档向量:D2=<1,0>D3=<0,1>Q=<1,1>D1=<1,1>D1,Qxy1D2D31二值表示方法并没有考虑一个词项在文档中出现的次数。通过扩展这种表示形式,我们将词项在文档中出现的频率作为向量中

3、各个分量的值。在上例中,如果文档D2中A出现了两次,向量可以表示为<2,0>。向量空间模型 ——构建向量除了简单地给出查询词列表外,用户通常还会给出权重,该权重表示一个词项比另外一个词项更重要。思想:不频繁出现的词的权重应该比频繁出现的词的权重更高。方法:人工赋值—在初始查询中用户人工指定词项权重来实现的。自动赋值—通过基于词项在整个文档集中出现的频率。向量空间模型——构建向量向量空间模型——构建向量我们采用稍大一些的例子来展示如何使用基于数据集频率的权重。t——文档集中不同词项的个数。——词项tj在文档Di中出

4、现的次数,也就是词频。——包含词项tj的文档的篇数。——,其中d表示所有文档的篇数。这就是逆文档频率。对于每一篇文档向量,都有n个分量。向量中的每个分量为在整个文档集中计算出来的每个词项的权重。在每篇文档中,词项权重基于词项在整个文档集中出现的频率情况以及词项在某一个特定文档中出现的频率自动赋值。向量空间模型——构建向量向量空间模型——构建向量对于文档中词项的权重因素,主要综合考虑词频和逆文档频率。文档i对应的向量中第j个词条的值:查询Q和文档Di的相似度可以简单地定义为两个向量的内积。Q:“goldsilver

5、truck”D1:“Shipmentofgolddamagedinafire”D2:“Deliveryofsilverarrivedinasilvertruck”D3:“Shipmentofgoldarrivedinatruck”在这个文档集中,d=3。lg(d/dfi)=lg(3/1)=0.477lg(d/dfi)=lg(3/2)=0.176lg(d/dfi)=lg(3/3)=0向量空间模型—构建向量(举例)三篇文档的每个词项的IDF值如下所示:idfa=0idfin=0idfarrived=0.176idfo

6、f=0idfdamaged=0.477idfsilver=0.477idfdelivery=0.477Idfshipment=0.17615idffire=0.477idftruck=0.176idfgold=0.176向量空间模型—构建向量(举例)向量空间模型—构建向量(举例)SC(Q,D1)=0×0+0×0+0×0.477+0×0+0×0.477+0.176×0.176+0×0+0×0+0×0.176+0.477×0+0.176×0=0.17620.031类似地:SC(Q,D2)=0.954×0.477+0.

7、17620.486SC(Q,D3)=0.1762+0.17620.062因此,检索结果顺序为D2,D3,D1。向量空间模型—倒排索引term1term2term3termitermnd1,1d10,2dj,tfi,j向量空间模型——构建向量新问题:在已知的查询和文档中,词频很高的匹配词项淹没了其他匹配词项的效果。为了避免这种现象,科研人员提出使用lg(tf)+1来缩小词频的范围。新的权重:基于该思想的修订版本是在查询和文档中的词项使用不同的权重。lnc.ltc词项权重计算模式非常有效。标签lnc.ltc是如下形式

8、:qqq.ddd,其中qqq指查询权重,ddd指文档权重。这三个字母:qqq或ddd是xyz的形式。向量空间模型——构建向量向量空间模型——构建向量第一个字母x可以是n、l或a。n表示原始词频或指tf。l表示通过取对数来降低权重,所以可以使用1+lg(tf)。a表示加强权重,所以权重为:第二个字母y表示是否使用idf。n表示不使用idf,t表示使用idf。第三个字母z表示

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。