资源描述:
《试论文本挖掘及其应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、22 图 书 馆 学 研 究 200814试论文本挖掘及其应用肖建国【摘 要】本文从文本挖掘的定义着手,分析了文本挖掘的过程,包括文本预处理,文本知识发现,文本模式的评价以及文本模式的呈现,并详细介绍了文本挖掘在主动信息服务、信息检索系统、专利信息分析等方面的应用。【关键词】文本挖掘 文本预处理 文本特征 主动信息服务 信息检索Abstract:Thethesisbeginsfromthedefinitionoftextmining,analyzestheprocessoftextmining,includingthe
2、textpretreatment,thetextknowledgediscovering,thetextpatternappraisalaswellastextpatternpresenting,andintroducestheapplicationoftextminingintheinitiativeinformationservice,theinformationretrievalsystem,patentinformationanalysisandsoon1Keywords:textmining textpret
3、reatment textcharacteristic initiativeinformationservice informationretrieval©1994-2010ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net22 图 书 馆 学 研 究 200814 随着互联网的大规模普及和社会信息化程度的提高,文本信息的快速积累使公司、政府和科研机构在信息处理和使用中面临前所未有的挑战。一方面,互联网
4、和各种信息机构每天都不断产生大量的有价值的文本数据;而另一方面,因为技术手段的落后,从这些文本数据资源中获取需要的信息十分困难。人们迫切需要研究出方便有效的工具去从大规模文本信息资源中提取符合需要的简洁、精炼、可理解的知识,文本挖掘就是为解决这个问题而产生的研究方向。1 文本挖掘的定义文本挖掘的主要目的是从非结构化的文本文档中提取有趣的、重要的模式和知识。所以它可以看成是基于数据库的数据挖掘或知识发现的扩展。但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:文档本身是半结构化或非结构化的,无确定形式并且缺乏机器
5、可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。因此,有些数据挖掘技术并不适用于文本挖掘,即使可用,也需要建立在对文本集预处理的基础之上。文本挖掘是一个交叉的研究领域,它涉及到数据挖掘、信息检索、自然语言处理、机器学习等多个领域的内容,不同的研究者从各自的研究领域出发,对文本挖掘的含义有不同的理解,不同应用目的的文本挖掘项目也各有其侧重点。因此,对文本挖掘的定义也有多种,其中被普遍认可的文本挖掘定义如下:文本挖掘(TextMining,TM)也称为文本数据挖掘(TextDa
6、taMining,TDM)或文本知识发现(KnowledgeDiscoveryinTexts,KDT),它是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。直观地说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本挖掘。2 文本挖掘的过程文本挖掘主要由以下几部分组成:211 文本预处理文本预处理指选取与任务相关的文本并将其转化成文本挖掘工具可以处理的中间形式。通常包括两个主要步骤:21111 文本特征表示文本特征指的是关于文本的元数据,分为描
7、述性特征(例如文本的名称、日期、大小、类型等),语义性特征(例如文本的作者、机构、标题、内容等)。由于文本信息具有有限的结构或者没有结构,文本的内容是人类所使用的自然语言,因此计算机很难处理其语义。文本的这些特殊性使得现有的数据挖掘技术无法直接应用于其上,所以要对文本进行特征表示,将这些特征用结构化的形式保存,以便于处理。©1994-2010ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.netRESEARC
8、HESINLIBRARYSCIENCE 23©1994-2010ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net21112 文本特征的提取文本特征的提取是很复杂的过程,它主要包括:停用词表的预过滤,即使用高、低通过