欢迎来到天天文库
浏览记录
ID:21366145
大小:818.21 KB
页数:43页
时间:2018-10-18
《第1讲 文本挖掘概述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第1讲文本挖掘概述1什么是文本挖掘?2文本挖掘的基本思想3文本挖掘和数据挖掘的区别和联系4文本挖掘的一般过程5文本挖掘可以解决什么类型的问题?6文本挖掘应用7文本挖掘在医疗领域应用的案例展示本讲主要内容1什么是文本挖掘?关于文本挖掘名字TextMiningTextDataMiningKnowledgeDiscoveryinText文本知识发现KnowledgeDiscoveryinTextualData文本挖掘定义TextMiningismainlyaboutsomehowextractingtheinformationandknowledg
2、efromtext文本挖掘是一个以半结构(如WEB网页)或者无结构(如纯文本)的自然语言文本为对象的数据挖掘,是从大规模文本数据集中发现隐藏的、重要的、新颖的、潜在的有用的规律的过程。(对KDD定义进行扩展)2文本挖掘的基本思想首先利用文本切分技术,抽取文本特征,将文本数据转化为能描述文本内容的结构化数据,然后利用聚类、分类技术和关联分析等数据挖掘技术,形成结构化文本,并根据该结构发现新的概念和获取相应的关系。换个说法:把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本
3、进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。文本挖掘特点:大规模的数据集高维过适应overfitting噪声数据挖掘出的模式的可理解性3文本挖掘与数据挖掘的区别和联系区别:文本挖掘:文档本身是半结构化的或非结构化的,无确定形式并且缺乏机器可理解的语义;数据挖掘:其对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识;数据挖掘已不是什么方兴未艾的新兴技术,在业界远未普及,但是,理论技术已经高度发达,对于某些问题解决也几近成熟。文本挖掘面临好多问题。大多数情况,数据挖
4、掘的技术不适用于文本挖掘,或至少需要预处理。联系数据挖掘和文本挖掘不是两个完全不同概念。事实上,它们都基于对以前样例的抽样分析,虽然样例组成大不相同,但是许多学习方法是相似的。因此,在文本挖掘过程中,文本将转换为数字形式。数据粗分为两种类型:(a)有序数值类型可以比较大小,例如,“重量”和“收入”(b)分类类型。分类属性是在代码书中定义的无序数值代码。最常见分类类型数据是可以取值为“真”或者“假”的属性,用1表示真,0表示假。学习程序并不关心代码含义,而最终理解学习程序结果却要依赖代码含义。文本是以文字串形式表示的数据文件非结构化文本源(如文
5、档、网页、企业管理日志等)文本的特点语言难点:文本不是给计算机阅读的复杂的语言结构:语法语义更困难的:歧义多语言这辆车没有锁;小张租小王两间房;三个学校的领导;这个人好说话;放弃美丽的女人让人心碎。经典的数据挖掘和文本挖掘的数据表示有很大不同。文本挖掘方法想要看到文档格式,而经典数据挖掘方法着重于处理电子表格格式的数据,而在文档领域描述数据的标准是称为XML格式的变体。很明显,我们期望文本和数字是完全不同的。我们将讨论的文本方法和数据挖掘中使用的方法是相似的。这些方法已经被证明是非常成功的,尽管它们没有考虑到特定的文本属性,例如语法的概念或者
6、文字的意义。通过使用频率信息——例如一个词在文档中出现的次数——成熟的机器学习方法得以应用于文本挖掘。文本挖掘的一个重要支撑是---文本数据到数值数据的转换,所以虽然数据初始表示不同,但是通过中间阶段将数据转换成到经典的数据挖掘编码格式,无结构的数据将会被结构化。文本数据是否不同于数值数据?将数据从文本转换到标准数值形式。将文本转换为标准的电子表格格式,并且填写电子表格的单元格。可考虑将文档看作一个完整的样例。列是可以被衡量的属性。在文本的最基本模型中,可认为词的出现或不出现为每个文档中的可度量属性。因此,每行表示一个文档,每列表示一个词。如
7、图,用1或者0填写单元格。在这个样例中,词“收入”出现在文档1和3,而不是文档2或4。公司收入工作海外0101101111100001图1.3文档中词的二进制电子表格词是属性,文档是样例将词转化为数字,然后应用已知的数据挖掘方法。急于在原始数据中应用学习方法是愚蠢的,特别是在没有考虑特定文本属性的情况下。电子表格只不过是概念模型,在实际应用中效率低下.考虑文档为一个集合。属性集将是集合中唯一词的总集合。我们称这个词集为字典。样例是个别的文档。一个应用程序可能有数千个或者甚至数以百万计的文档。这个字典将集中到比文档数目更小的词,但仍然可以编号到
8、几十万。正常情况下的电子表格矩阵是稀疏的:任何单个文档仅仅使用字典中词的潜在集合的一个极小的子集。因为这一特殊性质,电子表格仍然是一个合理的概念模型数据。文本挖掘方
此文档下载收益归作者所有