汉语自动分词方法

ID:37616310

大小:210.26 KB

页数:7页

时间:2019-05-26

汉语自动分词方法_第1页
汉语自动分词方法_第2页
汉语自动分词方法_第3页
汉语自动分词方法_第4页
汉语自动分词方法_第5页
资源描述:

《汉语自动分词方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1998年8月计算机工程与科学第20卷第3期Aug.1998COMPUTERENGINEERING&SCIENCEVol.20No.3X汉语自动分词方法AutomaticWordSegmentationMethodsfortheChineseLanguage殷建平YinJianping(国防科技大学计算机学院)(SchoolofComputerScience,NationalUniversityofDefenseTechnology)摘要本文给出了为汉语自动分词而提出的机械匹配法、特征词库法、约束矩阵法、语法分析法和

2、理解切分法。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解及其形式化理论。ABSTRACTThispaperpresentsmethodsofmechanicalmatching,featurelexi2con,bindingmatrix,grammaranalysisandsemanticunderstandingfortheChineselan2guageautomaticwordsegmentation.Itispointedoutthatwemust

3、studydeeplythemorphology,grammar,semanticsandevenpragmaticsandchapterunderstandingofChi2neseaswellasitsformaltheorybeforewecansolvesatisfactorilytheproblemoftheChineselanguageautomaticwordsegmentation.关键词汉语自动分词,词库,分词算法。KEYWORDSChineselanguageautomaticwordsegmen

4、tation,lexicon,wordseg2mentationalgorithm.一、引言英语等西方语言的书面形式以空格作为词与词之间分隔标志,而汉语的书面形式却是连续的汉字串。这样,理解汉语的首要任务是把连续的汉字串分割成词的序列。自动理解汉语的第一阶段就是进行汉语自动分词。本文给出各种自动分词方法(包括有关数据结构和算法)并分析这些方法的特点和所遇到的各种问题。X收稿日期:1997年11月;本文得到国防预研基金的资助。作者简介:殷建平,男,1963年10月生,副教授,博士,研究方向为中文信息处理、人工智能等。通

5、讯地址:410073湖南长沙国防科技大学计算机学院;联系电话:4506626Address:Sch.ofComputerSci.,Nat′lUniv.ofDefenseTech.,Changsha,Hunan410073,P.R.China60©1994-2010ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net二、机械匹配法机械匹配法的基本思想是:事先建立一词库,其中包含所有可能出现的词。对给定的待分

6、词的汉字串S,按照某种确定的原则切取S的子串,若该子串与词库中的某词条相匹配,则该子串是词,继续分割剩余的部分,直到剩余部分为空;否则,该子串不是词,转上重新切取S的子串进行匹配。机械匹配法的数据结构较为简单。一般来说,词库可分为基本词库和专业词库。为了提高查找匹配效率,它们又可细分为单字词库、双字词库、三字词库、四字词库和多字词库等。对机械匹配法,每个词库中的词条都非常简单,只需记录词的内部表示,而不必附带其他信息。词库可根据内部表示的大小组织成一个有序表。这样便于用二分法进行匹配查找。但是,由于整个词库一般较大,

7、无法一次调入内存,结果,一次匹配查找往往需要多次访问外存,执行速度不一定十分理想。对此,一种改进的方法是:按照某种确定的原则(如词的首字)将整个词库分成若干个子词库,使每个词库均可一次调入内存,而每个子词库均按内部表示的大小组织成一个有序表。这样,执行一次匹配查找时,首先确定待查串可能属于哪个子词库,然后把那个子词库调入内存按二分法进行查找。如果相同子词库中词的内部表示长度不一,那么,标准二分法还必须加以修改。总之,词库的设计应以既省空间又能快速执行匹配查找为目标。词库的建立是机械匹配法成败之关键。这里一个重要的问题

8、是:到底哪些词该收入词库?哪些不应收入词库?词库小了也许不够用,词库大了既费空间又费查找时间,甚至造成大量的歧义切分。一般来说,词库的好坏可通过两个参数来衡量,即覆盖率和利用率。覆盖率是指词库中出现在待切分语料中的词的数量与待切分语料的实际含词量之比,而利用率是指词库中出现在待切分语料中的词的数量与词库含词量之比。这两个参数都依赖于词库和待切分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
正文描述:

《汉语自动分词方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1998年8月计算机工程与科学第20卷第3期Aug.1998COMPUTERENGINEERING&SCIENCEVol.20No.3X汉语自动分词方法AutomaticWordSegmentationMethodsfortheChineseLanguage殷建平YinJianping(国防科技大学计算机学院)(SchoolofComputerScience,NationalUniversityofDefenseTechnology)摘要本文给出了为汉语自动分词而提出的机械匹配法、特征词库法、约束矩阵法、语法分析法和

2、理解切分法。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解及其形式化理论。ABSTRACTThispaperpresentsmethodsofmechanicalmatching,featurelexi2con,bindingmatrix,grammaranalysisandsemanticunderstandingfortheChineselan2guageautomaticwordsegmentation.Itispointedoutthatwemust

3、studydeeplythemorphology,grammar,semanticsandevenpragmaticsandchapterunderstandingofChi2neseaswellasitsformaltheorybeforewecansolvesatisfactorilytheproblemoftheChineselanguageautomaticwordsegmentation.关键词汉语自动分词,词库,分词算法。KEYWORDSChineselanguageautomaticwordsegmen

4、tation,lexicon,wordseg2mentationalgorithm.一、引言英语等西方语言的书面形式以空格作为词与词之间分隔标志,而汉语的书面形式却是连续的汉字串。这样,理解汉语的首要任务是把连续的汉字串分割成词的序列。自动理解汉语的第一阶段就是进行汉语自动分词。本文给出各种自动分词方法(包括有关数据结构和算法)并分析这些方法的特点和所遇到的各种问题。X收稿日期:1997年11月;本文得到国防预研基金的资助。作者简介:殷建平,男,1963年10月生,副教授,博士,研究方向为中文信息处理、人工智能等。通

5、讯地址:410073湖南长沙国防科技大学计算机学院;联系电话:4506626Address:Sch.ofComputerSci.,Nat′lUniv.ofDefenseTech.,Changsha,Hunan410073,P.R.China60©1994-2010ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net二、机械匹配法机械匹配法的基本思想是:事先建立一词库,其中包含所有可能出现的词。对给定的待分

6、词的汉字串S,按照某种确定的原则切取S的子串,若该子串与词库中的某词条相匹配,则该子串是词,继续分割剩余的部分,直到剩余部分为空;否则,该子串不是词,转上重新切取S的子串进行匹配。机械匹配法的数据结构较为简单。一般来说,词库可分为基本词库和专业词库。为了提高查找匹配效率,它们又可细分为单字词库、双字词库、三字词库、四字词库和多字词库等。对机械匹配法,每个词库中的词条都非常简单,只需记录词的内部表示,而不必附带其他信息。词库可根据内部表示的大小组织成一个有序表。这样便于用二分法进行匹配查找。但是,由于整个词库一般较大,

7、无法一次调入内存,结果,一次匹配查找往往需要多次访问外存,执行速度不一定十分理想。对此,一种改进的方法是:按照某种确定的原则(如词的首字)将整个词库分成若干个子词库,使每个词库均可一次调入内存,而每个子词库均按内部表示的大小组织成一个有序表。这样,执行一次匹配查找时,首先确定待查串可能属于哪个子词库,然后把那个子词库调入内存按二分法进行查找。如果相同子词库中词的内部表示长度不一,那么,标准二分法还必须加以修改。总之,词库的设计应以既省空间又能快速执行匹配查找为目标。词库的建立是机械匹配法成败之关键。这里一个重要的问题

8、是:到底哪些词该收入词库?哪些不应收入词库?词库小了也许不够用,词库大了既费空间又费查找时间,甚至造成大量的歧义切分。一般来说,词库的好坏可通过两个参数来衡量,即覆盖率和利用率。覆盖率是指词库中出现在待切分语料中的词的数量与待切分语料的实际含词量之比,而利用率是指词库中出现在待切分语料中的词的数量与词库含词量之比。这两个参数都依赖于词库和待切分

显示全部收起
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭