基于词典的中文分词算法研究.pdf

基于词典的中文分词算法研究.pdf

ID:52470118

大小:352.06 KB

页数:5页

时间:2020-03-27

基于词典的中文分词算法研究.pdf_第1页
基于词典的中文分词算法研究.pdf_第2页
基于词典的中文分词算法研究.pdf_第3页
基于词典的中文分词算法研究.pdf_第4页
基于词典的中文分词算法研究.pdf_第5页
资源描述:

《基于词典的中文分词算法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、总第233期计算机与数字工程Vo1.37No.3Computer&DigitalEngineering682009年第3期基于词典的中文分词算法研究周程远朱敏杨云(华东师范大学计算中心上海200062)摘要中文分词是计算机自动处理文本的基础。通过比较常用的机械分词算法的优缺点,提出了分层逐字二分算法,综合了TRIE树和逐字二分分词的特点,以求通过较小的开销来实现较快的匹配速度。实验结果表明,该算法在综合性能上有显著提高。关键词中文分词计算机应用中文信息处理中图分类号TP391.1ResearchonChineseWordSegmentationAlgorithmBasedontheD

2、ictionaryZhouChengyuanZhuMinYangYun(Dept.ofComputerCenter,EastChinaNormalUniversity,Shanghai200062)AbstractChinesewordsegmentationisthebaseforChineseinformationprocessing.Bycomparisoncommonlytheadvantagesanddisadvantagesofthemachinerywordsegmentationalgorithm,thenaliedverbatimbinaryalgorithmhas

3、beenpresented,whichintegratedTRIEtreesandverbatimbinarysearch'scharacteristics,trytotakethesmalleroverheadtoachievefastermatchspeed.Theresultsshowthatthealgorithminthecomprehensiveperformancehasmadesignificantincrease.KeywordsChinesewordsegmentation,computerapplication,Chineseinformationprocess

4、ingClassNumberTP39】.1典的分词方法和基于频度统计的分词方法。具体应l引言用时的不同算法则是二者不同程度的组合。基于词由于汉语的书写习惯,汉语句子中词与词之间典的分词方法是以汉语词典为基础对中文语句通过的标志是隐含的,英文的单词与单词之间有空格,匹配进行切分,这种方法主要包括三种基本算法:正所以不存在分词问题。而中文的每一句中词与词向最大匹配法、逆向最大匹配法、全切分法。之间是没有空格的,因而必须采用某种技术将其分很多分词系统较注重分词的准确率,而忽视了开。中文文本分词算法从2O世纪8O年代以来就速度。在实时性要求比较高的场合下要求分析算一直是一个研究热点,由于中文

5、语言的复杂性使之法对输入句子做出迅速的反应,所以分词算法的效一直处于发展阶段。中文分词是中文信息处理的率在实时性应用系统中的地位非常重要。基础与关键,从实际应用上来说,中文分词又是实本文列举了一些比较常用的基于词典的机械现计算机人工智能、智能搜索、人机对话、中文翻译分词算法,并且对几种中文分词处理的电子字典结以及web信息处理等核心应用的关键技术。构和相应的查找算法作了性能比较。最后提出了自动分词的基本算法主要分为两大类:基于词一种改进算法一分层逐字二分算法来提高分词系收稿日期:2008年11月2日,修回日期:2008年11月19日作者简介:周程远,男,硕士研究生,研究方向:现代软件

6、技术。朱敏,女,高级工程师,研究方向:现代软件技术、模式识别、图像处理。杨云,女,工程师,研究方向:WEB应用技术。第37卷(2009)第3期计算机与数字工程69统的效率。引表很容易确定指定词在词典正文中的可能位置范围,进而在词典正文中通过整词二分进行定位。2基于词典的机械分词的方法2.1正向最大匹配分词正向最大匹配分词是基于词典的分词系统。所谓最大匹配,就是要求每一句的分词结果中的词汇总量最少。正向最大匹配分词又分为增字和减字匹配法。增字匹配法需要一种特殊的词典结构支持,能够达到较高的分词效率。图2基于整词二分的分词词典结构减字法的流程为:首先读人一句句子,取出标3.3基于TRIE

7、索引树的分词词典机制【2]点符号,这样句子就被分成相应的若干段,然后对TRIE索引树是一种以树的多重链表形式表每一段进行词典的匹配,如果没有匹配成功就从段示的键树。基于TRIE索引树的分词词典机制由末尾减去一个字,再进行匹配,重复上述过程,直到首字散列表和TRIE索引树结点两部分组成。匹配成功某一个单词。整句句子重复这些流程,到TRIE索引树的优点是在对被切分语句的一次扫句子全部分解成词汇为止。如果事先知道词典中描过程中,不需预知待查询词的长度,沿着树链逐

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。