基于统计分类器的新词识别及研究

基于统计分类器的新词识别及研究

ID:31475630

大小:1.27 MB

页数:5页

时间:2019-01-11

基于统计分类器的新词识别及研究_第1页
基于统计分类器的新词识别及研究_第2页
基于统计分类器的新词识别及研究_第3页
基于统计分类器的新词识别及研究_第4页
基于统计分类器的新词识别及研究_第5页
资源描述:

《基于统计分类器的新词识别及研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于统计分类器的新词识别研究刘建毅h2王菁华1王枞11北京邮电大学智能科学技术研究中心2北京师范大学中文信息处理研究所北京北京100876100083liujy@nlu.caai.cnwangjh@nlu.caai.cnwangc@nlu.caai.cn摘要:新词识别是汉语自动分词的难题之一。在大规模中文自动分词中,新词是造成分词错误的一个重要原因。本文将新词的识别问题看成一种分类问题,在给定的上下文中判断一个字符串是否为新词。本文采用基于五类特征:前字成词概率、后字成词概率、前字前位成词概率、后字后位成词概率和共现概率的C

2、4.5和SVM算法解决该问题,并使用ACL—SIGHAN第一届中文分词竞赛中北京大学语料库进行测试,取得了较高的准确率和召回率。关键词:新词识别,支持向量机,决策树一,引言未髓录词识别是中文信息处理中的一个难点,在大规模中文文本的自动分词中,未登录词是造成分词错误的一个重要原因。未登录词识别技术的突破对提高汉语自动分词的准确性有很重要的意义,对其他自然语言处理(如信息检索、数据挖掘等)也有很重要的作用。朱卺录词是指中文分词处理中末包含在分词词典中的词,它可分成以下几类:人名:如刘建毅地名:如北京市组织机构名:如北京邮电大学简称:如北邮专

3、业术语:如域名新产生的词汇:如三个代表前三类的未登录词一般被称为专有名词,专有名词的识别已经有了许多研究成果,通常是针对某一种专名建立语料库,根据语料库中各姓氏、人名、地名、机构名用字的概率,在未登录词出现的句子中再以动态规划的方法求出可能最佳的那一类专名。而对于后三类未登录词,本文称之为新词。新词的识别问题较专有名词的识别要困难一些,目前大部分的未登录词研究集中在专有名词的识别。新词识别之所以具有挑战性,是因为:(1)新词频繁出现。根据商务出版社词典研究中心统计,每年涌现约1000个中文新词。这些词大多是特定领域、行业的技术术语(如“蓝

4、牙”)和时间敏感的政治、社会、文化术语(如“保先”,“保钓”)①。(2)新词出现的范围非常广泛,难以运用规则进行约束。新词识别有两种方法:离线方法和在线方法。离线方法一般是针对大规模语料库,先由机器自动生成一张候选词表,然后由人丁选出其中的新词添加到分词词典中,这种方法受时间和语料规模的限制,只能部分解决新词的识别问题。在线新阋识别方法则是在分词过程中,采用几个语言学特征实时发现句中的新词。本文主要研究在线新词识别方法,将新词的识别问题看成一种分类问题,在给定的上下文中判断一个字符串是否为新词。本文的结构如下:第二部分介绍一些相关工作;第

5、三部分详细介绍基于统计的新词识别方法;第四部分是实验结果;最后是结论。一,相关工作未臀录词的识别一般有以下三种方法:(1)基于规则和知识库的方法。首先收集大量的某类未登录词,建立用词表,如《中国地名库》、《中文姓名资料库》等,然后根据识别规则分别对其进行判断。这种方法的查全牢和查准率非常高,但也存在一些缺陷:识别效果的好坏极大地依赖于所利用的资源是否全面、科学,如果所用的资源比较少,覆盖面较小,将会严重影响识别的效果。此外,这种方法可识别的词的类型仪限于具有统计特征的几类词,而对于大量的普通词汇和新词汇却没有作用。(2)基于统计的方法。该

6、方法对语料库中的相邻的各个字的组合的频度进行统计,计算它们的互信息,互信息体现了汉字之间结合的紧密程度。然后在对输入文本进行分词的基础上,寻找可能构成中文新词的字符串,计算其组合概率,并应用一定的筛选公式来识别。但这种方法也有一些局限性:对常用词的识别精度差,时空开销大。(3)基于统计与规则相结合的方法。统计方法和规则方法互有优缺点,两种方法结合起来可以互为补充。在结合方式上,一般是先采用统计方法粗选出候选新词,然后利用一系列规则进行过滤。①秦浩伟,步丰林:《一个中文新词识别特征的研究》,载《计算机工程》,第30卷,2004目前新词识别

7、的研究工作主要采用语言学特征进行启发式新词识别,如:文献①提出单个汉字的成词率,即IWP特征:假设如果两个相邻汉字的IWP值之积大于预先设定的阈值,那么它们构成一个新词。文献②则使用另外一个特征:似然度,它表示在给定一个词及其词性和长度的情况下,一个汉字在该词中特定位置出现的概率。本文则利用了五类语言学特征:前字成词概率、后字成词概率、前字前位成词概率、后字后位成词概率和共现频率。基于统计的新词识别(一)问题描述具体来说,本文所研究的对象——新词是存在于文本经过一次分词程序处理后产生的分词碎片中,新词识别的过程就是在分词碎片中寻找相邻而不

8、需要切分的碎片串,将其连接起来从而构成新词③。从连接碎片的形式特征上分,新词可以分为:(1)碎片是两个单字(即新词由两个相邻的单字组成,“1+1”),如“保先”;(2)碎片是一个二字词和一个单

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。