文本分析检索模型和基于内容的图像检索ppt课件.ppt

文本分析检索模型和基于内容的图像检索ppt课件.ppt

ID:59440844

大小:1.48 MB

页数:59页

时间:2020-09-18

文本分析检索模型和基于内容的图像检索ppt课件.ppt_第1页
文本分析检索模型和基于内容的图像检索ppt课件.ppt_第2页
文本分析检索模型和基于内容的图像检索ppt课件.ppt_第3页
文本分析检索模型和基于内容的图像检索ppt课件.ppt_第4页
文本分析检索模型和基于内容的图像检索ppt课件.ppt_第5页
资源描述:

《文本分析检索模型和基于内容的图像检索ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、文本分析与检索文本表示与特征选取文本中抽取出的特征词进行量化来表示文本信息。(利用分词工具,极易中文分词,je-analysis-1.5.3,庖丁分词,paoding-analyzer.jar,IKAnalyzer3.0,imdict-chinese-analyzer,ictclas4j)目前通常采用向量空间模型来描述文本向量。如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维??特征选择:找出对文本特征类别最具代表性的文本特征文本特征词选择特征项必须具备一定的特性:特征项要能够确实标识文本

2、内容特征项具有将目标文本与其他文本相区分的能力特征项的个数不能太多特征项分离要比较容易实现字,词,短语特征词的选择用映射或变换的方法把原始特征变换为较少的新特征;从原始特征中挑选出一些最具代表性的特征;根据专家的知识挑选最有影响的特征;用数学的方法进行选取,找出最具分类信息的特征怎么样评价特征词的好坏?基于统计的特征提取方法(构造评估函数)词频方法(WordFrequency)文档频次方法(DocumentFrequency)TF-IDF法:以特征词t在文档d中出现的次数与包含该特征词的文档数之比作为该词的权

3、重逆向文件频率(inversedocumentfrequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到:互信息(MutualInformation)基于统计的特征提取方法(构造评估函数)期望交叉熵(ExpectedCrossEntropy)信息增益方法(InformationGain)统计量方法:度量特征w和主题类C之间的独立性A分析评价一个特征词是否是好词,一个特征词集合是否选择的合理,主要看所选择的词是否具有类别标识性

4、。所谓类别标识性有以下两点:1、Distinctiveforcategorization:也就是说如果该词同现则可以一个很大的概率将文章归为某类2、该词在它所“标识”的类别中应该频繁出现。DF法选择的特征词满足第二个条件多一点;而互信息选择的特征词只满足第一个条件多一点,而IG和卡方法在满足两个条件方面达到了平衡,所以IG和卡方法性能差不多,优于DFIG方法、卡方法虽然有抑制高词频噪声和低词频噪声的能力,但是归根结底,这两种方法是基于词频的红典统计推断,不能够有效抑制全部高频词噪声,如果要提高特征词集合抑制高

5、频词噪声的能力,可能要求诸于贝叶斯统计推断例子:如果时间回到2006年,马云和杨致远的手还会握在一起吗阿里巴巴集团和雅虎就股权回购一事签署了最终协议这两个文本的完全不相关?但是事实上,马云和阿里巴巴集团,杨致远和雅虎有着密切的联系,从语义上看,两者都和“阿里巴巴”有关系。富士苹果真好,赶快买苹果四代真好,赶快买两者非常相似?2个句子从语义上来讲,没有任何关系,一个是”水果“另一个是”手机"。特征变换-隐语义分析(LSA)LatentSemanticAnalysis-LSALatentSemanticIndex

6、ing-LSI问题提出:一词多义和同义词中心思想:用概念(或特征)代替词基本方法:利用矩阵理论中的“奇异值分解(singularvaluedecomposition,SVD)”技术,将词频矩阵转化为奇异矩阵(K×K)隐语义分析LSAS.Deerwester,S.Dumas,G.Furnas,T.Landauer,R.Harsman:Indexingbylatentsemanticanalysis,J.AmericanSocietyforInformationScience,41,1990,pp.391-407

7、M.W.Berry,S.T.Dumas,G.W.O’Brien:Usinglinearalgebraforintelligentinformationretrieval,SIAMReview,37,1995,pp.573-595隐语义分析LSA输入:term-by-documentmatrix输出:U:concept-by-termmatrixV:concept-by-documentmatrixS:elementsassignweightstoconcepts隐语义分析LSA1.建立词频矩阵,frequen

8、cymatrix2.计算frequencymatrix的奇异值分解。分解frequencymatrix成3个矩阵U,S,V。U和V是正交矩阵(UTU=I),S是奇异值的对角矩阵(K×K)3.对于每一个文档d,用排除了SVD中消除后的词的新的向量替换原有的向量4.用转换后的文档索引和相似度计算隐语义分析LSASVDuniquemathematicaldecompositionofamatrixinto

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。