汉语自动分词词典机制的实验研究.pdf

ID：52470043

大小：155.16 KB

页数：6页

时间：2020-03-27

资源描述：

《汉语自动分词词典机制的实验研究.pdf》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、中　文　信　息　学　报第14卷第1期JOURNALOFCHINESEINFORMATIONPROCESSINGVol.14No.1X汉语自动分词词典机制的实验研究孙茂松　左正平　黄昌宁清华大学计算机科学与技术系　北京　100084摘要　分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。关键词　中文信息处理　汉语自动分词　汉语自动分词词典

2、机制AnExperimentalStudyonDictionaryMechanismforChineseWordSegmentationSunMaosongZuoZhengpingHuangChangningTheStateKeyLaboratoryofIntelligentTechnologyandSystems,DepartmentofComputerScienceandTechnology,TsinghuaUniversityBeijing100084AbstractThedictionarymechanismservesasoneofthebasiccomponen

3、tsinChinesewordseg2mentationsystems.Itsperformanceinfluencesthesegmentationspeedsignificantly.Inthispaper,wedesignandimplementthreetypicaldictionarymechanisms,i.e.binary2seek2by2word,TRIEin2dexingtreeandbinary2seek2by2characters,fromwordsegmentationpointofview,andcomparetheirspaceandtimeco

4、mplexityexperimentally.Itcanbeseenthatthebinary2seek2by2charactersmodelisthemostappropriateonebeingcapableoffulfillingtheneedforspeedofpracticalChinesewordsegmenterstothemaximumextent.KeywordsChineseinformationprocessingChinesewordsegmentationDictionarymechanismforChinesewordsegmentation一、

5、引言[1]分词词典是汉语自动分词系统的一个基本组成部分。自动分词系统所需要的各类信息(知识)都要从分词词典中获取,分词词典的查询速度直接影响到分词系统的速度。而现实X本研究得到国家自然科学基金资助(合同号:69433010)本文于1999年4月6日收到1©1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.应用(如因特网上的中文文本检索、汉字与汉语语音识别系统的后处理以及中文文语转换系统的前处理等)均对分词速度提出了迫切要求,因此建立高效快速的分词词典机制势在必行。针对分词系统的特点,可以将分词词典的查

6、询操作大致分为三种基本方式:查询方式1:在分词词典中查找指定词w0(词在分词词典中的定位)这是一种最基本的查询方式。给定词w0,返回w0在分词词典中的位置,以便得到w0的各类附属信息。此时w0是确定的,所以可以简单地通过二分查找给出结果。查询方式2:根据分词词典,在汉字串S中查找从某一指定位置i开始的最长词wi,max(对应最大匹配分词法)有别于查询方式1,这里最长词wi,max无法预知,需要在查询过程中动态地确定。通常的做法是尝试始于位置i的所有可能长度的词,多次运用查询方式1来完成查询。查询方式3:根据分词词典,在汉字串S中查找从某一指定位置i开始的所有的词wi,1,w

7、i,2,⋯,wi,max(对应全切分分词法)类似查询方式2,但返回结果通常不唯一。本文设计并通过实验考察了三种典型的分词词典机制:(1)基于整词二分(2)基于TRIE索引树及(3)基于逐字二分,着重比较了它们的时间、空间效率。二、三种典型的分词词典机制实验利用了一个包含112967个不同词的分词词典THDic。THDic中最短词只有一个汉字(单字词),最长词则达到17个汉字(长词多为成语、惯用语、习用语等),平均词长度约2.5个汉字。2.1　基于整词二分的分词词典机制这是一种广为使用的分词词典机制。其结构通常分为三

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

汉语自动分词词典机制的实验研究.pdf

汉语自动分词词典机制的实验研究.pdf

相关文章

相关标签