文本挖掘综述.pdf

文本挖掘综述.pdf

ID:52768757

大小:143.82 KB

页数:2页

时间:2020-03-30

文本挖掘综述.pdf_第1页
文本挖掘综述.pdf_第2页
资源描述:

《文本挖掘综述.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、科技信息OIT论~riOSCIENCE&TECHNOLOGYINFORMATION2009年第33期文本挖掘综述杨霞黄陈英f乐山师范学院四川乐山614004)【摘要】文本挖掘是对一个非结构化文本信息进行分析从而获取用户关心或感兴趣,有潜在实用价值知识的过程本文首先介绍了文本挖掘的定义和研究现状,之后文本挖掘一般处理过程,着力于文本分类和文本聚类的一般过程,最后展望了今后的研究目标【关键词】数据挖掘;文本挖掘;文本分类;文本聚类TheOverviewofTextMiningTechniqueYANGXiaHUANGChen

2、-ying(LeshanNormalUniversity,SichuanLeshan614004)【Abstract]TextMiningisprocessofextractinginterestingknowledgeformlrgelinguisticsemantictextcollections.First,itintroducetheconceptanddevelopingofDataMining.ThenpointoutTextMininganditsstatus,Textclassificationandcl

3、usteringareimportantinthisIntheend,itshows.thefeatureofChinesetextminingandhighlighfingtheupcomingChallengesoftextmining【Keywords】Datamining;Textmining;Textclassification;TextclusteringO.引言常见的文本挖掘分析技术有:文本结构分析、文本摘要、文本分数据挖掘(DataMining),就是从大量数据中获取有效的、新颖的、类、文本聚类、文本关联

4、分析、分布分析和趋势预测等。在这里主要介潜在有用的、最终可理解的模式的非平凡过程。数据挖掘,又称为数据绍文本分类与文本聚类:库中知识发现KDD(KnowledgeDiscoveryinDatabase1,也有人把数据2.1文本分类的处理过程挖掘视为数据库中知识发现过程的一个基本步骤。数据挖掘可以与用文本分类系统的任务是:在给定的分类体系下,根据文本的内容户或知识库交互。自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射面对因为网络的飞速发展而带来的“信息膨胀”,尤其是以半结构的过程,它将未标明类别的文本映射到已

5、有的类别中,该映射可以是化或非结构化的文本信息为主的信息,人们迫切需要研究出方便有效一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类的工具去从中提取符合需要的、简洁的、精炼的、可理解的知识.文本别相关联挖掘TM(TextMining)因此产生。文本分类是一种典型的有教师的机器学习问题,一般分为训练和1.文本挖掘概述分类两个阶段.具体过程如下:1.1文本挖掘的定义训练阶段:文本挖掘是近几年来数据挖掘领域的一个新兴分支,文本挖掘也(1)获取训练文本集S=(S一,s,⋯,S):训练文本集由一组经过称为文本数据库中的

6、知识发现,是从大量文本的集合或语料库中抽取预处理的文本特征向量组成,每个训练文本(或称训练样本)有一个类事先未知的、可理解的、有潜在实用价值的模式和知识1。对文本信息别标号C,类别集合C=(一,C,,⋯,Cj事先定义好;的挖掘主要是发现某些文字出现的规律以及文字与语义、语法阃的联系.用于自然语言的处理,如机器翻译、信息检索、信息过滤等,通常采(2)选择分类方法并训练分类模型:文本分类方法有统计方法、机用信息提取、文本分类、文本聚类、自动文摘和文本可视化等技术从非器学习方法、神经网络方法等等。统计训练集s中所有文档的特征向

7、结构化文本数据中发现知识。量V(S),确定代表C中每个类别的特征向量V(c.);1.2文本挖掘的国内外研究现状分类阶段:国外对于文本挖掘的研究开展较早.50年代末,H.P.Iuhn在这一(3)用训练好的分类模型对其他待分类文本进行分类:计算测试领域进行了开创性的研究,提出_厂词频统计思想用于自动分类。1960文档集T=(d一,d,⋯,d)的特征向量V(d)与每个V(c,)之间的相年.Maron[2]发表了关于自动分类的第一篇论文,随后,以K.Spark,G.似度sim(d,c);Salton以及K.S.Jones等人为代

8、表的众多学者也在这一领域进行了卓(4)根据分类结果评估分类模型:选取相似度最大的一个类别有成效的研究工作。目前,国外的文本挖掘研究已经从实验性阶段进argmaxsiu,(dk,C.)作为dk的类别。入到实用化阶段,著名的文本挖掘工具有:IBM的文本智能挖掘机『3】、Autonomy公司的ConceptAgents、T

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。