最近邻方法wangyu课件.ppt

最近邻方法wangyu课件.ppt

ID:57444308

大小:199.00 KB

页数:32页

时间:2020-08-19

最近邻方法wangyu课件.ppt_第1页
最近邻方法wangyu课件.ppt_第2页
最近邻方法wangyu课件.ppt_第3页
最近邻方法wangyu课件.ppt_第4页
最近邻方法wangyu课件.ppt_第5页
资源描述:

《最近邻方法wangyu课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、关于文本分类的研究王煜文本挖掘概述文本数据的特点:半结构化或者无结构化高维数据大数据量时变数据语义性无标签分布式文本挖掘的功能主要包括:文本总结文本分类文本聚类关联分析分布分析趋势预测文本挖掘概述本挖掘面临的研究课题文本的表示特征经典的文本表示模型是向量空间模型空间降维问题基于评估函数的方法:通常是通过在训练数据集上的统计来计算每一特征的某种指标值,根据指标值的高低决定是否保留相应的字或词,或者对相应特征加权,从而实现特征选择。主要有互信息、信息增益、词频法[、CHI概率统计、期望交叉熵、几率比和文本

2、证据权潜在语义索引:利用概念标引代替关键词标引,从语义相关的角度为文本选择标引词,而不考虑标引词是否在文本中出现,其通过奇异值分解将词频矩阵转化为维数极大减小的奇异矩阵,用转换后的文本向量进行文本挖掘处理。主成分分析法:通过搜索最能代表原数据的正交向量,创立一个替换的、较小的变量集来组合属性的精华,原数据可以投影到这个较小的集合。还有一些常见的文本降维算法,主要包括基于文档频率方法、基于分类频率和文档频率方法、IDF×TF方法,模拟退火算法等,文本挖掘概述文本相似性度量问题模式的理解和可视化显示一词多

3、义和多词一义问题跨语言问题算法的选择领域知识集成中文文本分词技术文本分类方法概述文本挖掘中最基本的两项工作就是分类和聚类,几乎在所有文本挖掘的应用领域都离不开文本的分类和聚类。文本分类是文本挖掘的一个重要内容,是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。通过自动文本系统把文档进行归类,可以帮助人们更好地寻找需要的信息和知识。在人们看来,分类是对信息的一种最基本的认知形式。传统的文献分类研究有着丰富的研究成果和相当的实用水平。但随着文本信息的快速增长,特别是Internet上在线文本

4、信息的激增,文本自动分类已经成为处理和组织大量文档数据的关键技术。现在,文本分类正在各个领域得到广泛的应用。但是,随着信息量日趋丰富,人们对于内容搜索的准确率、查全率等方面的要求会越来越高,因而对文本分类技术需求大为增加,如何构造一个有效的文本分类系统仍然是文本挖掘的一个主要研究方向文本分类方法概述文本分类方法主要包括基于传统技术的决策树、K最近邻(KNN)、关联规则、支持向量机(SVM)、基于数据库的算法、贝叶斯等分类算法和基于软计算的神经网络、粗糙集、模糊逻辑和遗传算法。其中,基于软计算的方法通过

5、协同工作提供一种灵活的数据处理能力,其目标是实现对不精确、不确定、部分信息的处理能力和近似推理能力,以求能方便、稳健、低代价地逼近人类的分析判断能力。模糊逻辑提供处理由于模糊而不是随机产生的不精确、不确定性的算法,粗糙集则处理由于不可分辨关系导致的不确定性,神经网络用于模式分类与聚类,而遗传算法则用于优化和搜索。文本特征的降维方法基于模式聚合和改进统计量的文本降维方法基于CHI值原理和粗糙集理论的属性约减的文本降维方法基于神经网络的文本特征抽取方法基于模式聚合和改进统计量的文本降维方法改进的统计量CH

6、I的主要思想是认为词条与类别之间符合分布,词条的统计量表示词条对某个类别的贡献大小。统计量越高,词条和类别之间的独立性越小、相关性越强,即词条对此类别的贡献越大。统计量的计算公式基于模式聚合和改进统计量的文本降维方法改进的统计量词条和类别的相关性是有正反两种情况的:当>0,词条和类别正相关当<0,词条和类别负相关改进的统计量基于模式聚合和改进统计量的文本降维方法改进的统计量一般特征的CHI值为该特征对所有类别的统计量的平均值或最大值。在改进的统计量上,规定词条的CHI值为:基于模式聚合和改进统计量的文

7、本降维方法基于模式聚合理论的特征降维基于改进的统计量和模式聚合方法的特征降维步骤如下:计算每个词条对每类的改进的统计量。计算出各个词条的CHI值。然后把特征按CHI值由高到低进行排序,选取CHI值大的前M个特征词条,则由此得到的特征矩阵具有M个模式。为比较各个模式对各类分类贡献比例是否一致,首先将每个模式的改进统计量统一处理到[-1,1]之间,处理方式如下:基于模式聚合和改进统计量的文本降维方法采用凝聚的层次法聚类算法,根据对模式进行聚类(的每行表示一个模式)。将欧氏距离小于一定阈值的模式进行聚类;重

8、新计算每个特征项的CHI值,根据CHI值大小选择前L′个特征项仿真实验1无模式聚合仿真实验1、传统统计量和模式聚合的仿真实验2、改进的统计量和模式聚合的仿真实验3基于模式聚合和改进统计量的文本降维方法仿真实验1仿真实验2仿真实验3测试样本数量300300300正确识别样本数量216252271错误识别样本数量844829分类正确率72%84%90.33%决策树建树时间30分43秒3分17秒3分2秒抽取规则数量1875251抽取最大规则长度1072425基

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。