欢迎来到天天文库
浏览记录
ID:5382851
大小:153.96 KB
页数:5页
时间:2017-12-08
《基于统计的无词典分词方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、维普资讯http://www.cqvip.com第18卷第4期广西科学院学报Vo1.18,No.42OO2年l1月JournalofGuangxiAcademyofSciencesNovember2002基于统计的无词典分词方法WordExtractionwithoutDictionaryBasedonStatistics傅赛香袁鼎荣黄柏雄钟智FuSaixiangYuanDingrongHuangBoxiongZhongZhi(中国科学院计算技术研究所智能信息(广西师范大学计算机科学系处理开放实验室北京100080)
2、桂林541004)(TheKeyLaboratoryofIntelligent(DepartmentofComputerScience,InformationProcessing,InstituteofGuangxiNormalUniversity,Guilin,541004)ComputingTechnology,CAS,Beijing,1OOO8O)摘要通过分析词的结合模式,提出无词典分词模型,并对该模型进行实验测试。测试结果表明,无词典分词模型能够满足快速分词的要求。关键词自动分词无词典分词词条过滤词条统计中图
3、法分类号TP391.1AbstractThemethodforextractingwordswithoutdictionarybasedonstatisticsisdiscussed.Threeprinciplesonwordfilteringareproposedbyanalyzingthecombinationmodelsofwords.ThemodelforwordextractioniSdeveloped,andmeettherequirementofrapidextractionintheexperimen
4、ts.Keywordsautomatedwordextraction,wordextractingwithoutdictionary,wordfiltering,wordstatistics文档的自动分词一直是中文信息处理技术研究的热点和难点。汉语信息处理系统只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位。例如,汉字的拼音一字转换、自然语言理解、机器翻译、文本分类、汉语文章的自动朗读(即语音合成)、文本校对等中文信息处理系统同样需要分词作为其最基本的模块。因为汉字字符数量多,编码方式复杂,
5、词与词之间却没有分隔符,因此,正确地切分词语,是个很重要的问题。目前的分词方法归纳起来有3类:第一类是基于语法和规则的分词法。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂,基于语法和规则的分词法所能达到的精确度远远还不能令人满意,目前这种分词系统还处在试验阶段。第二类是机械式分词法。机械分词的原理是将文档中的字符串与词典中的词条进行逐一匹配,如果词典中找到某个字符串,维普资讯http://www.cqvip.com第
6、4期傅赛香等:基于统计的无词典分词方法253则匹配成功,可以切分,否则不予切分。基于词典的机械分词法,实现简单,实用性强,但机械分词法的最大的缺点就是词典的完备性不能得到保证。据文献[1]统计,用一个含有70000个词的词典去切分含有15000个词的语料库,仍然有3O以上的词条没有被分出来,也就是说有4500个词没有在词典中登录。第三类是基于统计的方法。基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。基于统计的分词方法即是无词典分词方法。本文在分析词的结合模式的基础上,提出3个过滤原
7、则对词条进行过滤,建立无词典分词模型,并对无词典分词模型进行实验测试。1无词典分词模型词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。1.1词条模式如果任意2个或2个以上的汉字组成的连续字符串称为汉字的结合模式,那么,词就可以看成是汉语中字与字的一种结合模式。当然,并不是每一个汉字结合模式都能构成一个词,它必须满足一定语法规则并且具有确定的语义才能称为词。将词条分为3种模式:统计模式、词法模式、语境模式。定义1统计模式定义为一个在文档中出
8、现具有一定的频度的连续的字符串。比如,从“元搜索引擎”中抽出的“元搜”、“搜索”、“索引”、“引擎”、及“元搜索”、“搜索引”、“索引擎”、及“元搜索引”、“搜索引擎”和“元搜索引擎”共10个字符串,都是具有统计模式的词条。定义2词法模式指的是满足一定的语法规则,并具有一定的含义和语义的字符串。比如,上述的“搜索”、“索引”、“引擎”、“搜索引
此文档下载收益归作者所有