基于文本表示的特征项权值确定方法研究

基于文本表示的特征项权值确定方法研究

ID:33544059

大小:336.49 KB

页数:4页

时间:2019-02-27

基于文本表示的特征项权值确定方法研究_第1页
基于文本表示的特征项权值确定方法研究_第2页
基于文本表示的特征项权值确定方法研究_第3页
基于文本表示的特征项权值确定方法研究_第4页
资源描述:

《基于文本表示的特征项权值确定方法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第17卷第3期甘肃科学学报Vol.17No.32005年9月JournalofGansuSciencesSep.2005基于文本表示的特征项权值确定方法研究王海涌‘,2,郑丽英’,2,刘丽艳’,2(1.光电技术与智能控制教育部重点实验室(兰州交通大学),甘肃兰州730000;2.兰州交通大学信息与电气工程学院,甘肃兰州730070)摘要:文本表示中特征项的权值确定方法决定了文本特征的提取,在很大程度上影响了文本分类的准确率.通过系统总结常用的几种特征项权值的确定方法,并逐一比较分析和研究,提出了一种性能较好的确定方法—据位定权函数,经实验验证据位定权函数确实能够有效地提高文本分类的准确

2、性.关键词:文本分类;特征项;权值确定中图分类号:TP391文献标识码:A文章编号:1004-0366(2005)03-0086-04MethodsofFeatureWeightingAscertainmentBasedonTextCategorizationWANGHai-yong"z,ZHENGLi-ying''2,LIULi-yanl'z(1.KeyLaboratoryofOpto-ElectronicTechnologyandIntelligentControl,LanzhouJiaotongUniversity,Lanzhou730000,China;2.SchoolofIn

3、formationc2t.ElectricalEngineeringLanzhouJiaotongUniversity,Lanzhou730070,China)Abstract:Themethodoffeatureweightingascertainmentintextcategorizingdeterminesthetextfeaturepick-ups.Andtheaccuracyoftextcategorizingoftendependsonthemethodofascertainingweightingfeatureintextpick-ups.Somecommonlyused

4、methodsareoutlinedhere.Bycomparing,analyzingandstudyingthem,abettermethodoffeatureweightingascertainmentispresentedhere.Thismethodcanimprovetheaccuracyoftextcategorizingefficiently,whichisprovedbyexperiments.Keywords:textcategorization;feature;weightingascertainment文本分类是文本挖掘的一个重要组成部分,在数据,记录文本的特征

5、.将这些特征用结构化的形式提高信息检索的速度和准确率方面显得意义重保存,作为文档的中间形式,以便更好地组织文本,大[117.它是有指导的机器学习,即利用预定义的文本如文本的存储、检索、过滤、分类和摘要等.类别和训练文本指导新的测试文本的学习,从而确1文本预处理定新文本的类别.而文本分类中的特征选择和特征文本特征指的是关于文本的元数据,分为描述抽取是用机器学习方法进行文本分类的首要任务和关键问题.性特征(例如文本的名称、日期、大小、类型等),以及通常文本数据具有有限的结构,甚至大部分没语义性特征(例如文本的作者、机构、标题、内容等).有结构,而文档的内容是用自然语言描述,计算机无通常把文

6、本内容数据转换为便于计算机处理的结构法直接理解其语义和进行相应的处理.所以需要对化数据的形式有布尔逻辑型、概率型、向量空间型文本进行特征表示和预处理,抽取代表其特征的元等.目前,在信息处理领域,向量空间模型(VSM)是收稿日期:2004-12-29基金项目:教育部“春辉计划”(20455);甘肃省科技攻关计划项目(ZGS045-352-009);光电技术与智能控制教育部重点实验室(兰州交通大学)开放基金资助项目(K040103)第17卷王海涌等:基于文本表示的特征项权值确定方法研究应用较多且效果较好的表示方法之一E2].通常,向量TFi(d);空间模型(VSM)假设文章中词条出现的顺序

7、是无(2)反比于样本文本集中出现该特征词的文本关紧要的,它们对于文档的类别所起的作用是相互频率DF.独立的,因此可以把文档看成一组正交词条向量所这样任意文件d,就可以表示为多维关键词向组成的向量空间,其坐标轴代表不同的特征项的存量,即每个文档d都可以映射为向量空间模型在.这个特征词条空间的坐标轴可能是离散值或者(VSM)中的一个特征向量:连续值.特征词条空间的维数取决于特征项全集的V(d)=(t=w,(d),⋯,t,,w;(d),⋯,t=,w=

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。