一种快速文本归类算法的设计与实现.pdf

一种快速文本归类算法的设计与实现.pdf

ID:54369623

大小:251.06 KB

页数:6页

时间:2020-04-30

一种快速文本归类算法的设计与实现.pdf_第1页
一种快速文本归类算法的设计与实现.pdf_第2页
一种快速文本归类算法的设计与实现.pdf_第3页
一种快速文本归类算法的设计与实现.pdf_第4页
一种快速文本归类算法的设计与实现.pdf_第5页
资源描述:

《一种快速文本归类算法的设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第26卷第12期北京理工大学学报Vol.26No.122006年12月TransactionsofBeijingInstituteofTechnologyDec.2006!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!文章编号:1001-0645(2006)12-1069-04一种快速文本归类算法的设计与实现高影繁1,马润波2,刘玉树1(1.北京理工大学计算机科学技术学院,北京1000S1;2.山西大学物理电子工程学院,山西,太原030006)摘要

2、:为实现无维数约减技术而使分类算法可行且不浪费空间存储的超稀疏文档向量,同时保证分类精度和速度且两者相互独立的目标,提出使用类别特征信息数据库、类别特征权重向量模型、待归类文档压缩向量表示法和改进的Rocchio分类算法等技术实现文档的高速归类.在相同的Reuters测试语料集上,与CRF算法和改进的INN算法进行对比实验.结果表明,在基本不牺牲精度的情况下,归类算法的分类速度明显高于对比算法.关键词:类别特征库;类别特征权重向量模型;压缩文档向量表示中图分类号:TP391文献标识码:ADesignandlmplementa

3、tionofafasttextcategorizationalgorithmGAOying-fan1,MARun-bo2,LIUyu-shu1(1.SchoolofComputerScienceandTechnology,BeijingInstituteofTechnology,Beijing1000S1,China;2.CollegeofPhysicsandelectronics,ShanxiUniversity,Taiyuan,Shanxi030006,China)abstract:Inthetextcategoriza

4、tionalgorithmgiveninthepaper,therearethreeinvolvedobjectsvid.:feasiblealgorithmWithoutdimensionreduction,nospaceforsupersparsevectors,andindependenteffectivenessandefficiency.Theseobjectsareturnedintorealitybymeansofcategory-featuredatabase,categoryfeatureWeightvec

5、tormodel,compresseddocumentvectorrepresentationandimprovedRocchioclassifier.ContrastingexperimentshavebeencarriedoutonthesameReuterscorpusWiththeCRFandimprovedINNalgorithm.Itisprovedthatthemethodhasbetterefficiencyandtolerableeffectiveness.Keywords:category-feature

6、database;category-featureWeightvectormodel;compresseddocumentvectorrepresentation文本分类(textcategorization/textclassification)1算法目标是指在给定的分类体系下,根据文本的内容(自动)确定文本所属类别的过程[1]!主要有5个问题需要用常用的文本分类算法得到分类器模型,构建解决:获取训练文档集合,建立文档表示模型,进行文档表示模型需要训练文档集合中所有类别文档!文档特征抽取(或选择),选择或设计分类模型,选择

7、这样的文档表示方式一方面由于其极度稀疏使得大或设计性能评测模型!作者基于此问题研究一种快量存储空间被无用数据占据;另一方面因为其维数速文本归类算法的设计与实现!巨大使得众多分类算法不可行,使维数约减变得必收稿日期:20060720基金项目:国家部委预研项目(40104116)作者简介:高影繁(1974—),女,博士生,e-mail:gaoyingf!126.com;刘玉树(1941—),男,教授,博士生导师.1070北京理工大学学报第26卷不可少可以通过压缩特征减少计算复杂性,但这的表现程度,且是归一化的,体现类别间的可比较

8、种压缩是有损的,这也是为什么不同的维数约减技性以为分量的向量(,,⋯,)构成j1j2jj术对分类结果有不同影响的原因[2-3]此外,现有了类别的向量!jj的很多分类算法不能同时保证精度和速度,往往是利用类别特征信息数据库中信息构建的表达一方的提高以牺牲另一方为代价,INN算法就是一式为!个

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。