资源描述:
《文本挖掘技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、2005年12月北京联合大学学报(自然科学版)Dec.2005第19卷第4期总62期JournalofBeijingUnionUniversity(NaturalSciences)Vol.19No.4SumNo.62文本挖掘技术研究1,22薛为民,陆玉昌(11北京联合大学自动化学院,北京100101;21清华大学计算机科学与技术系,北京100084)[摘要]文本挖掘是数据挖掘的重要内容之一,其应用十分广泛。对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技
2、术,最后对文本挖掘技术进行总结和展望。[关键词]文本挖掘;数据挖掘;Web文本挖掘;文本挖掘模型[中图分类号]TP391[文献标识码]A[文章编号]1005-0310(2005)04-0059-05文本挖掘是近几年来数据挖掘领域的一个新特征与偏差、时序模式发现、趋势分析等。兴分支,在国际上,文本挖掘是一个非常活跃的研传统的数据挖掘技术,主要针对的是结构数究领域。从技术上说,它实际是数据挖掘和信息检据,如关系的、事务的、数据仓库的数据。随着数据索两门学科的交叉。文本挖掘与传统数据挖掘的处理工具、先进数据库技术以及网络技术迅速发差别在于文本数据与一般数据的巨大
3、差异。传统展,大量的形式各异的复杂类型的数据(如结构化数据挖掘所处理的数据是结构化的,如关系的、事与半结构化数据、超文本与多媒体数据)不断涌现。务的、数据仓库的数据,其特征数目通常不超过几因此数据挖掘面临的一个重要课题就是针对复杂百个,而文本数据没有结构,转换为特征矢量后特数据类型的挖掘,这包括复杂对象、空间数据、多媒征数将达到几万甚至几十万。所以,文本挖掘既采体数据、时间序列数据、文本数据和Web数据。用了很多传统数据挖掘的技术,又有自己的特性。112文本挖掘近年来随着Internet的大规模普及和企业信息文本挖掘(TM,TextMining)是以计算语
4、言学、化程度的提高,有越来越多的信息积累,Internet已统计数理分析为理论基础,结合机器学习和信息检经发展为当今世界上最大的信息库。Internet上的索技术,从文本数据中发现和提取独立于用户信息信息,是以网页形式存放的,而网页的内容又多以需求的文档集中的隐含知识。它是一个从文本信文本方式来表示,传统的信息检索技术已不适应日息描述到选取提取模式,最终形成用户可理解的信益增长的大量文本数据处理的需要。如何快速、准息知识的过程。确地从来自异构数据源的大规模的文本信息资源Web文本挖掘就是从Web文档和Web活动中中提取符合需要的简洁、精炼、可理解的知识,这
5、就发现、抽取感兴趣的潜在的有用模式和隐藏的信息涉及到文本知识挖掘。Internet的发展,极大地促进的过程。Web文本挖掘可以对Web文档集合的内了文本挖掘的发展。容进行总结、分类、聚类、关联分析以及趋势预测等。Web文本挖掘和通常的平面文本挖掘有类似1文本挖掘的基本概念之处,但是,Web文档中的标记给文档提供了额外111数据挖掘的信息,可以借此提高Web文本挖掘的性能,Web数据挖掘(DM,DataMining)是从大量的、不完文本挖掘是文本挖掘的主要研究内容。全的、有噪声的、模糊的、随机的实际应用数据中采113文本挖掘种类掘出隐含的、先前未知的、对决策
6、有潜在价值的知按照文本挖掘的对象可把文本挖掘分类为:基识和规则的过程,包括分类、聚类、关联规则挖掘、于单文档的数据挖掘和基于文档集的数据挖掘。[收稿日期]2005-10-08[基金项目]国家自然科学基金重大项目(79990584);自然科学基金资助项目(60473115)[作者简介]薛为民(1968)),男,河北邯郸人,清华大学计算机系博士后,副教授,研究方向为数据挖掘、智能计算、人机交互;陆玉昌,男(1937)),清华大学计算机系教授,博士生导师,研究方向为数据挖掘、知识发现和机器学习。60北京联合大学学报(自然科学版)2005年12月1)基于单文档的数
7、据挖掘:基于单文档的数量机(SVM,SupportVectorMachine)方法等。据挖掘中对文档的分析并不涉及其它文档。主要4)文本自动聚类:与文本分类相对应的是文挖掘技术有:文本摘要(TextSummarization)、信息提本自动聚类。文本聚类是一种典型的无教师机器取(InformationExtraction),其中信息提取包括:名字学习问题,它与文本分类的不同之处在于,聚类没提取(Namesofpeople、organizationsandplaces)、短语有预先定义好的主题类别,它的目标是将文档集合提取(Multiwordterms)、关
8、系提取等。分成若干个簇,要求同一簇内文档内容的相似度尽2)基于文档