资源描述:
《基于统计的汉语分词模型及实现方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第18卷第4期 广西科学院学报Vol118,No142002年11月 JournalofGuangxiAcademyofSciencesNovember2002基于统计的无词典分词方法WordExtractionwithoutDictionaryBasedonStatistics 傅赛香 袁鼎荣 黄柏雄 钟 智FuSaixiangYuanDingrongHuangBoxiongZhongZhi(中国科学院计算技术研究所智能信息(广西师范大学计算机科学系处
2、理开放实验室 北京 100080) 桂林 541004)(TheKeyLaboratoryofIntelligent(DepartmentofComputerScience,InformationProcessing,InstituteofGuangxiNormalUniversity,Guilin,541004)ComputingTechnology,CAS,Beijing,100080)摘要 通过分析词的结合模式,提出无词典分词模型,并对该模型进行实验测试。测试结果表明,无词典分词模型能够满足快速
3、分词的要求。关键词 自动分词 无词典分词 词条过滤 词条统计中图法分类号 TP39111AbstractThemethodforextractingwordswithoutdictionarybasedonstatisticsisdiscussed.Threeprinciplesonwordfilteringareproposedbyanalyzingthecombinationmodelsofwords.Themodelforwordextractionisdeveloped,andmeetther
4、equirementofrapidextractionintheexperiments.Keywordsautomatedwordextraction,wordextractingwithoutdictionary,wordfiltering,wordstatistics 文档的自动分词一直是中文信息处理技术研究的热点和难点。汉语信息处理系统只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位。例如,汉字的拼音一字转换、自然语言理解、机器翻译、文本分类、汉语文章的自动朗读(即语
5、音合成)、文本校对等中文信息处理系统同样需要分词作为其最基本的模块。因为汉字字符数量多,编码方式复杂,词与词之间却没有分隔符,因此,正确地切分词语,是个很重要的问题。 目前的分词方法归纳起来有3类:第一类是基于语法和规则的分词法。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂,基于语法和规则的分词法所能达到的精确度远远还不能令人满意,目前这种分词系统还处在试验阶段。第二类是机械式分词法。机械分词的原理
6、是将文档中的字符串与词典中的词条进行逐一匹配,如果词典中找到某个字符串,则匹配成2002206208收稿。©1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.第4期 傅赛香等:基于统计的无词典分词方法253功,可以切分,否则不予切分。基于词典的机械分词法,实现简单,实用性强,但机械分词法的最大的缺点就是词典的完备性不能得到保证。据文献[1]统计,用一个含有70000个词的词典去切分含有15000个词的语料
7、库,仍然有30%以上的词条没有被分出来,也就是说有4500个词没有在词典中登录。第三类是基于统计的方法。基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。基于统计的分词方法即是无词典分词方法。本文在分析词的结合模式的基础上,提出3个过滤原则对词条进行过滤,建立无词典分词模型,并对无词典分词模型进行实验测试。1 无词典分词模型 词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。111 词条模式
8、 如果任意2个或2个以上的汉字组成的连续字符串称为汉字的结合模式,那么,词就可以看成是汉语中字与字的一种结合模式。当然,并不是每一个汉字结合模式都能构成一个词,它必须满足一定语法规则并且具有确定的语义才能称为词。 将词条分为3种模式:统计模式、词法模式、语境模式。 定义1 统计模式定义为一个在文档中出现具有一定的频度的连续的字符串。 比如,从“元搜索引擎”中抽出的“元搜”、“搜索”、“索引”、“引擎”、及“元搜索”、“搜索引”、“索引擎”、及“元