人工智能的文本分类方法简述.doc

人工智能的文本分类方法简述.doc

ID:52740447

大小:137.00 KB

页数:7页

时间:2020-03-30

人工智能的文本分类方法简述.doc_第1页
人工智能的文本分类方法简述.doc_第2页
人工智能的文本分类方法简述.doc_第3页
人工智能的文本分类方法简述.doc_第4页
人工智能的文本分类方法简述.doc_第5页
资源描述:

《人工智能的文本分类方法简述.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、人工智能的文本分类方法简述摘要:本文阐述了一些基本的文本分类的方法,以及一些改进的文本文类的方法,并包含了一些文本分类的实际应用。其中着重阐述了贝叶斯分类以及一些其他的的文本分类方法。最后提出了现在文本分类方法中存在的一些问题。关键词:文本分类;贝叶斯方法;数据挖掘;分类算法。0引言文本分类是指在给定分类体系下,根据文本内容(自动)确定文本类别的过程。20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。目前在国内也已经开始对中文文本分类方法进行研究,相比于英文文本分类,中文文本分类的一个重要的差别在于预处理阶段:中文文本的

2、读取需要分词,不像英文文本的单词那样有空格来区分。从简单的查词典的方法,到后来的基于统计语言模型的分词方法,中文分词的技术已趋于成熟。并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。人工智能的基本方法就是对人类智能活动的仿真。小样本数据可以看作是一种先验知识不完全的数据集。人类在处理类似的决策问题时,通常采用的策略为:1,利用多专家决策来提高决策的可信度;2,专家的决策技能在决策的过程中可以得到不断的增强,即专家具有学习功能;3,在专家的技能得到增强的基础上,再进行决策可以提高决策的

3、正确性。这种方法同样适用于小样本数据的分类识别。通过对上述方法的仿真,本文提出了智能分类器,它不仅可以对未知样本进行分类,同时它还具有多专家决策、预分类和学习功能。1分类的基本概念分类就是根据数据集的特点找出类别的概念描述,这个概念描述代表了这类数据的整体信息,也就是该类的内涵描述,并使用这种类的描述对未来的测试数据进行分类。分类的过程一般分为两个步骤:第一步,通过已知数据集建立概念描述模型;第二步,就是利用所获得的模型进行分类操作。对各种分类方法的评估可以根据以下几条标准进行:1)预测准确率,指模型能够正确预测未知数据类别的能力;2)速度,指构造和使用模型时的计算效率;

4、3)鲁棒性,指在数据带有噪声或有数据遗失的情况下,模型仍能进行正确预测的能力;4)可扩展性,指对处理大量数据并构造相应有效模型的能力;5)易理解性,指所获模型提供的可理解程度。2常用的分类算法2.1基于决策树的分类所谓决策树就是一个类似流程图的树型结构,其中树的每个节点对应一个非类别属性,每条边对应这个属性的每种可能值,而树的每个叶结点代表一个类别(如图1)。生成决策树的一个著名的算法是Quinlan提出的ID3算法,ID3算法从树的根节点处的所有训练样本开始,选取一个属性来区分这些样本,属性的每一个值产生一个分支。将分支属性值的相应样本子集移到新生成的子节点上。这个算法

5、递归地应用于每个子节点,直到一个节点上的所有样本都分区到某个类中。属性选择采用信息增益的方法来确定。选择具有最高信息增益(熵减少的程度最大)的属性作为当前结点的测试属性,这样保证所产生的决策树最为简单,工作量最小。设S为一个包含了S个数据样本的集合,且类别属性可以取m个不同的值{C1,C2……,Cm}。假设Si为类别Ci中的样本个数;则对一个给定数据对象进行分类所需要的信息量为:其中pi=si/s。设一个属性A取v个不同的值{a1,a2……,av},利用属性A将S划分为v个子集{S1,S2……,Sv},设Sij为子集Sj中属于Ci类别的样本数。那么利用属性A划分当前样本集

6、合所需要的信息(熵)可以按如下公式计算:这样利用属性A对当前分支结点进行相应样本集合划分所获得的信息增益就是:通过以上公式计算每个属性的信息增益。选择具有最高信息增益的属性作为给定集合S的测试属性,创建一个节点,并以该属性标记,对属性的每个值创建分支,进行样本划分。ID3算法在选择属性时利用了信息增益的概念,算法的基础理论清晰;决策树的每个分支都对应一个分类规则,因此产生的分类规则易于理解;同时,分类速度较快,准确率较高。但是ID3算法也存在着许多不足:1)不能够处理连续值属性;2)计算信息增益时偏向于选择取值较多的属性;3)对噪声较为敏感;4)在构造树的过程中,需要对数

7、据集进行多次的顺序扫描和排序,因而导致算法的低效;5)只适合于能够驻留于内存的数据集使用,当训练集大得无法在内存容纳时程序无法运行。ID3的改进算法有C4.5,C4.5用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择属性值多的属性的不足。此外,在树构造过程中或构造完成后进行剪枝,提高了抗噪声能力;能够对连续值属性进行离散化处理;能够对不完整数据进行处理。常用的决策树算法还有SLIQ算法。SLIQ算法对C4.5分类算法的实现方法进行了改进,在决策树的构造过程中采用了预排序与广度优先增长策略,使得该算法能够处理更大的训练

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。