资源描述:
《一种改进逐字二分中文分词词典设计》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第31卷第4期湘潭大学自然科学学报Vol131No142009年12月NaturalScienceJournalofXiangtanUniversityDec120093一种改进逐字二分中文分词词典设计123杨毅,王禹桥(11西华大学数学与计算机学院,四川成都610039;21中国矿业大学机电工程学院,江苏徐州221116)[摘要]在研究了多种分词词典机制的基础上,提出一种改进的词典机制1在传统的首字哈希表中增加拼音首字母和次字哈希标志项,在首字哈希表中查询次字的拼音首字母,根据双字以上词的数量决定是否按次字拼音首字母散列到次字
2、首字母哈希表中,以此决定次字的查询方式1在兼顾空间复杂度的同时,缩小次字查询范围能较大幅度地提升高频词的次字的整体查询效率1第3字及其后的字串的匹配仍然采用目前成熟的词典机制1通过实验测试,该机制在增加少量的存储空间情况下,时间效率可提升26%1关键词:中文分词;次字;哈希;最大匹配;逐字二分中图分类号:TP39111文献标识码:A文章编号:100025900(2009)0420124205DesignofChineseWordSegmentationDictionaryBaseonTraditionalDictionary12
3、3YANGYi,WANGYu2qiao(11SchoolofMathematicsandComputerScience,XihuaUniversity,Chengdu610039;21CollegeofMechatronicEngineering,ChinaUniversityofMiningandTechnology,Xuzhou221116China)【Abstract】Afterstudyingtheolddictionarymechanisms,anewdictionarywordsegmentationmechanis
4、mforChinesewordsegmentationisproposed1Inthismechanism,itaddstheinitialBopomofoofeachcharac2terandsignforHashofthesecondcharacterinthefirst2characterHashTable,thesecondcharacterhashesintothesub2tablesaccordingtoitsinitialBopomofoandsignofthesecondcharacter1Spacecomple
5、xityisvirtuallyunchanged;second2characterinquirycangreatlyreducetherangeoftheinquiryandacceleratetheprocessofsecond2characterinquiryforhigh2frequencywords1Thematchforthethirdcharacteranditsfol2lowingstringsstilladoptsthepresentmaturedictionarymechanism1Throughthetest
6、,thismechanismonlyincreasesasmallamountofstoragespace,butpromotesthetimeefficiencyby26%1Keywords:chinesesegmentation;secondcharacter;Hash;maximummatching;verbatimbinarysearch在英文的行文中,空格是天然的分界符,英语的分词和文字处理比较直观和方便1中文书写时,人们不可能在文中人为地加上词组分隔符,仅靠中文的标点符号无法实现中文分词1在信息检索、语音、文本校对、
7、自动翻译等应用领域,中文分词工作是前提,是语义理解过程的第一个环节1如何像大脑一样把紧凑的汉字拆分成人能理解意义上的单元,人们经过了十多年的努力,但结果仍然不够理[1]想1现有分词算法大致可分为三大类:机械分词方法、基于理解分词方法和基于统计分词方法1基于理解分词方法就是让计算机模拟人脑思维,但分词系统复杂,必须要存储大批量的语言知识和信息,因此这种智能的分词方法仍处于实验阶段1基于统计的分词方法就是根据相邻字同时出现的概率作为分词的依据,虽然在识别新词有一定优势,但这种方法也有很大的局限性,并且对常用词识别精确度反而不高,时空
8、的开销也不小1机械分词方法是把待分解的串与词典中的词条进行匹配来判断是否为词,故需要一个“海量”的词典1即使达到了全切分的目的,在某些场合,也很难消除歧义,故通常把机械分词作为一种初切分,后续工作仍然需要应用其他办法来最大限度地保证切分准确率1如果想要在数量级上