可扩展统计分词系统的构造

可扩展统计分词系统的构造

ID:5389964

大小:362.73 KB

页数:5页

时间:2017-12-08

可扩展统计分词系统的构造_第1页
可扩展统计分词系统的构造_第2页
可扩展统计分词系统的构造_第3页
可扩展统计分词系统的构造_第4页
可扩展统计分词系统的构造_第5页
资源描述:

《可扩展统计分词系统的构造》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据可扩展统计分词系统的构造金华兴戴新宇陈家骏(南京大学计算机软件新技术国家重点实验室计算机科学与技术系,南京210093)E-mail:jinhx@nlp.nju.edu.cn摘要论文从实用的角度出发,在自行开发的一套分词系统的基础上,简要说明了一个分词系统的各个组成部分以及各部分的处理方法,并提出了一个可扩展分词系统的框架。这个框架具有很好的适应性和灵活性,能够适用于各种不同的统计方法或者规则统计相结合的方法。该框架也可包容各种未登录词识别的方法。可以作为进一步研究和开发分词系统的一个基础平台.也可以为构造一个分词系统作指导。关键词分词

2、统计方法可扩展框架文章编号1002—8331一(2005)23—0176—03文献标识码A中图分类号TP311ConstructionofanExtensibleChineseWordSegmentationSystemJinHuaxingDaiXinyuChenJiajan(StateKeyLaboratoryforNovelSoftwareTechnology,DepartmentofComputerScience&Technology,NanjingUniversity,Nanjing210093)Abstract:Thepaperpre

3、sentsawaytoconstructahighlyextensibleChinesewordsegmentationsystemanddescribeasoftwareframework,whichisveryflexible.Inapracticallyusefulwordsegmentationsystem,peoplealwaysusediversitymethods.Thisframeworkcanbeadaptedtoallkindsofmethods,rulebased,statisticsbasedorahybridway.A

4、ndthisframeworkcanalsobeadaptedtoallkindsofunknownnameentityrecognitionapproaches.Authorsalsogiveinstructionsofhowtoimplementsuchaframeworkinthispaper.Keyword:Chinesewordsegmentation,statisticalmethod,extensible,framework1引言分词系统目前已经进行了比较多的研究,然而,真正从零构造一个实用的分词系统并不是一件轻松的事。任何一个实

5、用的分词系统都是多种方法多种模型的综合,不可能依赖于一个单一的模型或者方法完成。近几年来,基于统计的分词方法占了主要的地位.称为经验主义。本文提出的框架正是基于统计方法的。本文的目的是提出一个通用的分词系统的框架,该框架具有很好的可扩展性.可以把多种方法都整合到这个框架中。这样的一个框架带来以下好处:一是有利于各种模型的比较,从而找到更好的模型:二是当需求变化时,可以进行局部修改而不会影响到整体.提高了可重用性。本文首先简要说明了统计分词的基本原理,然后重点讲述总体框架以及各个组成部分,最后简要地说明了系统具体实现上的考虑。2基本原理从统计思想

6、的角度看,分词问题的输入是一个字串C=c。C:⋯C。,输出是一个词串W--wlw:⋯甜。,其中ms凡。对于一个特定的C,会有多个形对应,统计分词的任务就是在这些肜中找出概率最大的一个。即求形,使得P(WIC)的值最大。根据贝叶斯公式,P(WIC)=尸(W)P(CIW)/P(C),其中P(C)是固定值,从词串恢复到汉字串的概率P(CIW)=l(只有唯一的一种方式)。由此求解问题可以变换为:在全切分所得的所有结果中,求得某个形,使得P(形)为最大。那么,如何来表示P(形)呢?N—gram模型是最基本的统计语言模型,用常用的二元模型来表示P(形),则

7、:P(形)一P(埘1)4P(w21w1)4⋯+P(训。I埘+1)其中对于不同的W.m的值是不一样的,一般来说m越大,P(形)会越小。也就是说,分出的词越多,概率越小。这符合实际的观察,如最长匹配算法就是建立在这个基础上的。所以,我们认为N—gram模型中尸(形)较好地反映了实际情况,本文提出的框架主要是基于这个基础的。3总体架构分词系统,特别是高精度的分词系统,其处理过程都是分阶段进行的【l】.各个阶段采用的方法可能相同,也可能不同,而在同一个阶段也可采用不同的方法。由此,一个可扩展的系统必须把各个阶段内部的算法封装起来。同时根据不同的需求,也

8、可以灵活地定制阶段之间的衔接。本框架设计的总体思想是基金项目:国家863高技术研究发展计划项目“面向奥运的多语言信息服务系统”(编号:2002AAll

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。