资源描述:
《第12章 文本挖掘.ppt》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第12章文本挖掘在浩瀚的文本中找到所需信息。7/18/20211数据仓库与数据挖掘第12章文本挖掘12.1引例12.2文本挖掘7/18/20212数据仓库与数据挖掘12.1引例乒乓球女团中国夺冠,第33金超越雅典奥运创造历史[文本1]神舟六号轨道舱正常运行60天取得大量科学数据[文本2]乒乓男单决赛颁奖中国三虎将包揽金银铜牌[文本3]前三段文本中哪两段文本在内容上更接近?如果前两段文本各代表一类文本,那么,你认为第三个文本应该归为其中的哪一类?7/18/20213数据仓库与数据挖掘12.1引例在文
2、本规模较小、文本量较少的情况下,可以通过人工手段完成。大规模、大数量的文本情况下,如何完成?7/18/20214数据仓库与数据挖掘12.2文本挖掘12.2.1文本信息检索概述12.2.2基于关键字的关联分析12.2.3文档自动聚类12.2.4文档自动分类12.2.5自动摘要7/18/20215数据仓库与数据挖掘12.2.1文本信息检索概述信息检索泛指用户从包含各种信息的文档集中查找所需要的信息或知识的过程,人们借助某种检索工具,运用某种特定的检索策略从待检索的信息源中查找出自己需要的信息。信息检索
3、是一种不确定性检索,用户在检索信息时,并不知道信息源里是否有符合需要的东西。7/18/20216数据仓库与数据挖掘12.2.1文本信息检索概述基本概念:信息检索的度量方式基于模型的检索基于相似性的检索文档间相似性计算举例7/18/20217数据仓库与数据挖掘1.信息检索的度量方式查准率(Precision)是检索到的文档中的相关文档占全部检索到的文档的百分比,它所衡量的是检索系统的准确性查全率(Recall)是被检索出的文档中的相关文档占全部相关文档的百分比,它所衡量的是检索系统的全面性7/18/
4、20218数据仓库与数据挖掘2.基于模型的检索模型的种类:布尔模型:文档和查询式都表示为特征项的集合,运用集合运算来检索。向量空间模型:文档和查询式都表示为高维空间中的向量,通过对代数的向量运算进行检索。概率模型:文档和查询式是通过概率理论形式化为概率分布,建立在概率运算的基础上。7/18/20219数据仓库与数据挖掘检索模型包含的三个要素:文本集用户提问文本与用户提问相匹配7/18/202110数据仓库与数据挖掘布尔模型:将用户提问表示成布尔表达式,查询式是由用户提问和操作符and、or、not
5、组成的表达式,运用几何运算来检索。向量空间模型:有一特征表示集,特征通常为字或词。用户提问与文本表示成高维空间向量,其中每一维为一特征。每个特征用权值表示。用户提问向量的权值由用户制定,通过对代数的向量运算进行检索。概率模型。富有代表性的模型是二值独立检索模型(BIR)。BIR模型根据用户的查询Q,可以将所有文档d分为两类,一类与查询相关(集合R),另一类与查询不相关(集合N,是R的补集),建立在概率运算的基础上。7/18/202111数据仓库与数据挖掘3.基于相似性的检索根据一个文档集合d和一个
6、项集合t,可以将每个文档表示为在t维空间R中的一个文档特征向量v。向量v中第j个数值就是相应文档中第j个项的量度。计算两个文档相似性可以使用上面的公式7/18/202112数据仓库与数据挖掘4.文档间相似性计算举例以前述三个文档为例,构建一个基于所有文档的词典。词典内容:北京大学,体育馆,乒乓球,团体,决赛,中国队,总比分,奥运会,金牌,女子团体,雅典奥运会,男子单打,检测数据,神舟六号,轨道舱,太空,科学试验,金融,银行,监管,市场,经营,国际,货币,人民币v1={1,1,1,1,1,1,1,1
7、,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0}v2={0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0}v3={1,1,1,0,1,0,1,1,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0}7/18/202113数据仓库与数据挖掘12.2.2基于关键字的关联分析基于关键字关联分析就是首先收集频繁一起出现的项或者关键字的集合,然后发现其中所存在的关联性关联分析对文本数据库进行预处理,生成关键字向量,根据关
8、键字查询向量与文档向量之间的相关度比较结果输出文本结果,然后调用关联挖掘算法与关系数据库中关联规则的挖掘方法相似。7/18/202114数据仓库与数据挖掘12.2.3文档自动聚类1、什么是文档自动聚类2、文档自动聚类的步骤3、文档自动聚类的类型7/18/202115数据仓库与数据挖掘1、什么是文档自动聚类文本聚类是根据文本数据的不同特征,将其划分为不同数据类的过程。其目的是要使同一类别的文本间的距离尽可能小,而不同类别的文本间的距离尽可能的大。传统的聚类方法在处理高维和海量文本数据