国内中文自动分词技术研究综述.doc

国内中文自动分词技术研究综述.doc

ID:57829940

大小:77.00 KB

页数:14页

时间:2020-03-31

国内中文自动分词技术研究综述.doc_第1页
国内中文自动分词技术研究综述.doc_第2页
国内中文自动分词技术研究综述.doc_第3页
国内中文自动分词技术研究综述.doc_第4页
国内中文自动分词技术研究综述.doc_第5页
资源描述:

《国内中文自动分词技术研究综述.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、国内中文自动分词技术研究综述[摘要]认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点。全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点。[关键词]中文分词分词算法歧义消除未登录词分词系统[分类号]G354中文分词是文本分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理中的关键技术及难点。经过广大学者共同努力,过去2D多年中文分

2、词取得可喜进步,黄昌宁、赵海…在四方面总结了取得的成绩。笔者利用CNKI全文期刊数据库,以“中文and分词”、“汉语and分词”、“自动and分词”等为检索条件,检索时段为1987年1月1日〜2010年9月IIH,进行篇名检索,经筛选分别得到相关研究论文214、191、165篇,通过文献归纳总结出该领域研究现状、研究内容、研究热点与难点,并展望其发展。1中文分词基础理论研究中文分词理论研究可归结为:三种主要分词算法及组合算法研究、中文分词歧义消除、未登录词识别与分词与词性标注评测研究。1.1分词算法研究衡量分词算法优劣标准

3、是分词速度与精度,各种算法围绕精度与速度展开。目前分词算法很多,大致可归纳为:词典分词方法、理解分词方法、统计分词方法、组合分词算法。1.1.1词典分词方法?算法。词典分词方法按照一定策略将待分析汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,该方法需要确定三个要素:词典、扫描方向、匹配原则。比较成熟的几种词典分词方法有:正向最大匹配法、逆向最大匹配法、双向最大匹作为一种初分手段,再通过各种其他的语言信息进一步提高切分的准确率。配法、最少切分等。实际分词系统,都是把词典分词词典分词方法包含两个核心内容:

4、分词算法与词典结构,算法设计可从以下几方面展开:①字典结构改进;②改进扫描方式;③将词典中的可按由长到短递减顺序逐字搜索整个待处理材料,一直到分出全部词为止。?词典结构。同典结构是词典分词算法关键技术,直接影响分词算法的性能。三个因素影响词典性能:①词查询速度;②词典空间利用率;③词典维护性能。Hash表是设计词典结构常用方式,先对GB2312〜1980中的汉字排序(即建立Hash表),然后将其后继词(包括词的属性等信息)放在相应的词库表中。孙茂松等设计并实验考察了三种典型的分词词典机制:整词二分、TR止索引树及逐字二分,

5、着重比较它们的时间、空间效率。姚兴山提出首字Hash表、词次字Hash表、词次字结构、词3字Hash表、词3字结构、词4字Hash表、词4字结构、词索引表和词典正文的词典结构,该结构提高查询速度,但增大存储开销。陈桂林等介绍了一种高效的中文电子词表数据结构,它支持首字Hash和标准的二分查找,且不限词条长度,并给出利用近邻匹配方法来查找多字词,提高了分词效率。目前文献看,围绕词典结构提高分词性能的主流思想是设计Hash表,表数目随结构不同而不同,数目越多,空间开销越大,但查询速度也相应提高,具体设计需要在时间与空间之间权衡

6、。1.1.2理解分词方法基本思想是分词同时进行句法、语义分析;利用句法信息和语义信息来处理歧义现象,理解分词方法需要使用大量语言知识和信息。?人工智能技术。人工智能技术主要包括专家系统、神经网络和生成一测试法三种。分词专家系统能充分利用词法知识、句法知识、语义知识和语用知识进行逻辑推理,实现对歧义字段的有效切分。何克抗等深入分析了歧义切分字段产生的根源和性质,把歧义字段从性质上划分为四类,并给出消除每一类歧义切分字段的有效方法。王彩荣设计了一个分词专家系统的框架:将自动分词过程看作是基于知识的逻辑推理过程,用知识推理与语法

7、分析替代传统的“词典匹配分词+歧义校正的过程。”神经网络摸拟人脑神经元工作机理设计,将分词知识所分散隐式的方法存入神经网内部,通过自学习和训练修改内部权值,以达到正确的分词结果。林亚平、尹锋利等用BP神经网络设计了一个分词系统,进行大量仿真实验,取得不错分词效果。采用神经网络与专家系统的人工智能分词算法与其他方法相比具有如下特点:①知识的处理机制为动态演化过程;②字词或抽象概念与输入方式对应,切分方式与输出模型对应;③能较好地适应不断变化的语言现象,包括结构的自组织和词语的自学习;④新知识的增加对系统处理速度影响不大,这与

8、一般机械匹配式分词方法有很大区别;⑤有助于利用句法信息和语义信息来处理歧义现象,提高理解分词的效果。作为智能分词技术的一种探讨,将神经网络与专家系统思想引入中文分词,是一种有益尝试,为后续智能自动分词技术取得更多进展打下良好基础。黄祥喜提出“生成一测试”法,通过词典的动态化、分词知识的分布化、分词系统和

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。