基于关键词组合向量模型的文本自动分类研究_1

基于关键词组合向量模型的文本自动分类研究_1

ID:30640510

大小:18.69 KB

页数:7页

时间:2019-01-02

基于关键词组合向量模型的文本自动分类研究_1_第1页
基于关键词组合向量模型的文本自动分类研究_1_第2页
基于关键词组合向量模型的文本自动分类研究_1_第3页
基于关键词组合向量模型的文本自动分类研究_1_第4页
基于关键词组合向量模型的文本自动分类研究_1_第5页
资源描述:

《基于关键词组合向量模型的文本自动分类研究_1》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果基于关键词组合向量模型的文本自动分类研究[摘要]本文描述了一种新的基于关键词组合模式的文本向量空间表示模型,相对于只使用文本中词语的频率的文本向量空间模型,这种新的模型在可以计算的前提下,使用了词语之间的相对位置信息,从而可以解决部分词语向量空间模型表示的不足。本文讨论了使用这种模型的自动文本分类系统,包括分类系统的结构、特征提取、文本相似度计算公式,并给出了评估方法。  

2、[关键词]关键词组合向量空间自动分类分类算法    近年来,以文本格式存储的海量信息出现在Internet、数字化图书馆及公司的Intranet上,如何从这些浩瀚的文本中发现有价值的信息是信息处理领域的重要目标,而文本自动分类系统能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织及挖掘文本信息,因此得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。  一、自动分类的种类和作用  自动分类就是用计算机系统代替人工对文献课题份量和难易程度要恰当,博士生能在二年内作出结果,

3、硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果等对象进行分类,一般包括自动聚类和自动归类。自动聚类和自动归类的主要区别就是自动聚类不需要事先定义好分类体系,而自动归类则需要确定好类别体系,并且要为每个类别提供一批预先分好的对象作为训练文集,分类系统先通过训练文集学习分类知识,在实际分类时,再根据学习到的分类知识为需要分类的文献确定一个或者多个类别。本文中所指的

4、自动分类是指对网页的自动分类,包括网页的自动归类和自动聚类。  目前搜索引擎提供两种信息查询方式:分类浏览和关键词检索。分类浏览一般是基于网站分类目录。关键词检索的对象不是网站,而是符合条件的网页。关键词检索信息量大、更新及时、不需要人工干预。  二、问题描述  1.系统任务  简单地说,文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇

5、文本可以同多个类别相关联。用数学公式表示如下:    文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。  2.评估方法  我们使用评估文本分类

6、系统的两个指标:准确率和查全率。准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学公式表示如下:;查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率,其数学公式表示如下:;准确率和查全率反映了分类质量的两个不同方面,两者必须综合考虑,不可偏废。  3.词语向量空间模型的文本表示  目前,在信息处理方向上,文本的表示主要采用向量空间模型(VSM)。向量空间模型的基本思想是以向量来表示文本:,其中Wi为第i个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词组,根据实验结

7、果,普遍认为选取词作为特征项要优于字和词组,因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本。词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用TF~IDF公式,目前存在多种TF~IDF公式,一种比较普遍的TF~IDF公式为:课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的

8、课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果;其中,为词t在文本中的权重,而为词t在文本中的词频,N为训练文本的总数,nt为训练文本集中出现t的文本数,分母为归一化因子。  4.词语向量空间模型的训练方法和分类算法  训练方法和分类算法是分类系统的核心部分,目前存在多种基于向量空间模型的训练算法和分类算法,例如,支持向量机算法、神经网络方法,最大平均熵方法,最近K邻居方法和贝叶斯方法等等。一般相似

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。