欢迎来到天天文库
浏览记录
ID:37585773
大小:431.20 KB
页数:7页
时间:2019-05-25
《一个面向文本分类的中文特征词自动抽取方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、http://www.paper.edu.cn一个面向文本分类的中文特征词自动抽取方法付德宇代成琴哈尔滨工业大学信息与网络中心(黑龙江哈尔滨150001)E-mail:fdy@hit.edu.cn摘要本文根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点,设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法,并通过实验同传统的词典分词法进行了比较,结果表明,这种方法对于中高频词条的识别率接近于词典分词法,而分词速度上则远远高于词典分词法,能够满足对大规模开放域文本进行快速特征词自动抽取的需求。关键词中文特征词自动抽取文本分类汉字结合模式中图分类号TP399Amet
2、hodofChineselexicalitems’extractionfortextcategorizationFuDeyuDaiChengqin(InformationandNetworkCenter,HarbinInstituteofTechnologyHarbin150006)Abstract:Thisarticleaccordingtothemainstreamtextclassificationmodelisonlysensitivetothelexicalitems’frequency,alsoonlywiththelexicalitemsofintermediatean
3、dhighfrequencyrelated,adictionary-freemethodbasedonfilteringthecombinationpatternsofChinesecharactersinmanystepsisdesigned.Ithascomparedwiththetraditionalmethodondictionarythroughtheexperiment,theresultsshowthatthemethodisclosetothemethodondictionaryintherecall’svalueforthelexicalitemsofinterme
4、diateandhighfrequency,andfarhigherthanthemethodondictionaryatthespeed.Itcansatisfytothelarge-scaleandopeningtextdocumentsonthedemandofChineselexicalitems’extractionKeywords:Chineselexicalitems’extraction,Textcategorization,CombinationpatternsofChinesecharacters1.引言随着Web上中文文本数量的不断增加,自动分类已经成为组织和管
5、理在线中文文本数据的关键技术。目前主流文本分类技术都采用向量空间模型对文本进行表示,向量空间模[1]型将文本表示成以特征词权重为项的向量,从而把分类问题转化成一个向量计算问题。显然文本特征词的确定是影响文本分类质量和速度的重要环节,由于中文文本没有类似英文空格之类的显式表来标示词的边界,因此中文文本特征词自动抽取成为中文文本分类的一个关键问题。中文文本特征词自动抽取本质上是一个中文分词问题。中文分词的研究有将近二十年的历史,目前比较成熟的分词技术都是基于词典的分词方法,大多数中文文本分类系统也都是以基于词典的分词方法为主,同时辅以其它的方法提高特征词自动抽取的[2]精度。如文献[3]
6、基于词典采用双向最大匹配法进行自动分词,然后利用数据采掘方法获取汉语的词性规则,只保留名词和动词作为文本的特征词。1http://www.paper.edu.cn词典分词方法是建立在词典完备的理想假设下,但是语言中的词汇是一个动态、开放的集合,任何表面完备的常用词典和专业词典都不可能涵盖所有的词语。因此除了切分歧义的影响,词典分词法难以克服的最大问题是词典的不完备性,而即使存在一个完备的词典,也会由于词典的词条数目巨大,而使分词速度大大降低,甚至使分词方法变得不可用。大规模中文文本分类问题,对于中文特征词自动抽取的实时性和跨领域需求很高,因此基于词典的分词方法很难满足这样的需求。本文
7、将根据目前主流文本分类模型中特征词自动抽取不关注位置信息,只对词频敏感的特征,以基于词频统计的无词典分词方法为基础,设计一种通过多步过滤汉字结合模式进行特征词自动抽取的方法,这种方法可以满足对大规模跨领域中文文本进行快速处理的需求。2.中文特征词快速自动抽取方法的原理无词典分词方法一般采用统计学习方法对文本进行词语切分,其难点问题是词条的发现,目前比较常见的方法是根据汉字结合的频率来判定某个汉字组合是否属于一个词条。由于汉字的结合具有很多偶然性的因素,而且
此文档下载收益归作者所有