信息检索课件-精简版-文本分类

信息检索课件-精简版-文本分类

ID:19729754

大小:178.50 KB

页数:12页

时间:2018-10-05

信息检索课件-精简版-文本分类_第1页
信息检索课件-精简版-文本分类_第2页
信息检索课件-精简版-文本分类_第3页
信息检索课件-精简版-文本分类_第4页
信息检索课件-精简版-文本分类_第5页
资源描述:

《信息检索课件-精简版-文本分类》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、文本分类给定分类体系,将文本分到某个或者某几个类别中。分类体系一般人工构造政治、体育、军事中美关系、恐怖事件这里讲的分类主要基于内容其他分类:文体、态度、风格……人工方法费时费力费钱难以保证一致性专家有时候凭空想象自动方法快速一致性好来源于真实文本,可信度高自动文本分类的核心问题文本分类与其它分类一样,其方法可以归结为根据待分类数据的某些特征来进行匹配当然完全的匹配不太可能必须根据某种评价标准选择最优的匹配结果核心问题用哪些特征表示文本才能准确、快速地分类对特征的选择主导了不同的文本分分类方法流派词匹配法、知识工程方法、统计学习法词

2、匹配法词匹配法是最早被提出的分类算法该方法仅根据文档中是否出现了与类名相同的词来判断文档是否属于某个类别至多再加入同义词的处理很显然,这种过于简单机械的方法无法带来良好的分类效果。知识工程方法后来兴起过一段时间的知识工程的方法借助于专业人员的帮助,为每个类别定义大量的推理规则,如果一篇文档能满足这些推理规则,则可以判定属于该类别。这里与特定规则的匹配程度成为了文本的特征。由于在系统中加入了人为判断的因素,准确度比词匹配法大为提高。知识工程方法的缺陷分类的质量严重依赖于这些规则的好坏,也就是依赖于制定规则的“人”的好坏制定规则的人都是

3、专家级别,人力成本大幅上升常常令人难以承受而知识工程最致命的弱点是完全不具备可推广性一个针对金融领域构建的分类系统,如果要扩充到医疗或社会保险等相关领域,则除了完全推倒重来以外没有其他办法,常常造成巨大的知识和资金浪费。统计学习法后来人们意识到,究竟依据什么特征来判断文本应当隶属的类别这个问题,就连人类自己都不太回答得清楚有太多所谓“只可意会,不能言传”的东西在里面人类的判断大多依据经验以及直觉因此自然而然的会有人想到何让机器像人类一样自己来通过对大量同类文档的观察来自己总结经验,作为今后分类的依据。这便是统计学习方法的基本思想统计

4、学习法需要一批由人工进行了准确分类的文档作为学习的材料(称为训练集)注意由人分类一批文档比从这些文档中总结出准确的规则成本要低得多计算机从这些文档中挖掘出一些能够有效分类的规则这个过程被形象的称为训练而总结出的规则集合常常被称为分类器训练完成后,用分类器对计算机从来没有见过的文档进行分类现如今,统计学习方法已经成为了文本分类领域绝对的主流主要的原因在于其中的很多技术拥有坚实的理论基础,存在明确的评价标准,以及实际表现良好相比之下,知识工程方法中专家的主观因素居多文本分类的过程文本表示训练过程分类过程训练文本统计统计量特征表示学习分类

5、器新文本特征表示类别Rocchio核心向量法Rocchio是一种传统的分类方法该方法为每一类别都构造一个核心向量该核心向量是通过求这个训练集合的正负反馈的特征项权重(FeatureWeight)的平均值在分类中,比较测试文本的向量和核心向量的相似度。Rocchio核心向量法训练文本Rocchio分类+政治-军事*体育K-NearestNeighbor给定一组分完类的训练文本,在此基础上对一个未知文本进行分类。当指定K的个数时,计算每一个训练文本与测试文本的相似度,从其中取K个相似度最大的文本。对这K的文本的类别进行统计,若第i个类别

6、的文本数目最多,则认为测试文本属于第i类。K-NearestNeighbor训练文本待分类文本KNN分类(K=5)+政治-军事*体育

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。