基于helmholtz原理的中文新词识别

基于helmholtz原理的中文新词识别

ID:33505578

大小:1.31 MB

页数:41页

时间:2019-02-26

基于helmholtz原理的中文新词识别_第1页
基于helmholtz原理的中文新词识别_第2页
基于helmholtz原理的中文新词识别_第3页
基于helmholtz原理的中文新词识别_第4页
基于helmholtz原理的中文新词识别_第5页
资源描述:

《基于helmholtz原理的中文新词识别》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:!Q12鱼分类号:!里3窆!!垒论文题目学号:编号:31109030专2014年4月30日原创性声明本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得内墓直太堂及其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:燃挚指导教师签名:日期:班砂在学期间研究成果使用承诺书本学位论文作者完全了解学校有关

2、保留、使用学位论文的规定,即:内蒙古大学有权将学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期间取得的研究成果(含计算机软件、程序)属于内蒙古大学计算机学院。作者今后使用涉及在学期间主要研究内容或研究成果。须征得内蒙古大学计算机学院就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大学计算机学院方可投稿或公开发表。学位论文作者签名:至垒煎益指导教

3、师签名:日期:日期内蒙古大学硕士学位论文基于HeImholtz原理的中文新词识别摘要在新词识别领域,研究者的研究阶段处于有效的新词特征挖掘和新词检测模型选择。现有的新词特征主要包括语言知识特征和统计特征。常用的语言知识特征有前后缀、串长,统计特征有词频、互信息、左熵、右熵、色子矩阵(Dice)。新词,为何新?“新”可以跟时间对比,在某个时间点之前新词从未出现过,这个时间点后新词出现了,并被人们广泛使用,但新词出现的这个时间点很模糊,无法具体界定。针对新词时间分布特性难以描述的问题,本文提出一种量化新词时

4、间分布特性的方法,并用于新词检测。本文采用候选新词词频与Helmholtz原理相结合来量化新词的时间分布特性。词频体现人们某段时间对某个词的使用频度,本文将词的时间分布特性量化为语料中文档词的词频分布。Helmholtz原理观察事件是否远偏离事件发生的随机分布,如果事件观察结果明显偏离随机分布,则该事件是有意义的。文档词的词频分布是Helmholtz原理的观察对象,新词在连续时间段内从无到出现,然后被广为传播使用表现为新词的词频剧增,相比于词典词的词频分布,候选新词的词频分布可能会被Helmholtz原

5、理观察为偏离随机分布的事件。本文解决了时间分布特性量化的难题,并用于新词检测。在实验阶段,采用支持向量机(SⅦ订)作为新词检测模型,融合互信息、左熵、右熵、Dice的组合特征做实验的Baseline,新词识别准确率为85.6093%。在Baseline的基础上,新词特征增加串长、词频,新词识别的准确率为87.5328%。在此基础上,新词特征增加以词频与Helmholtz原理相结合的时间分布特性,新词识别的准确率为91.5822%。关键词:新词识别;词频;Helmholtz原理;SVM模型基于Helmho

6、ltz原理的中文新词识别DETECTIONOFCHINESENEWWORDBASEDONHEL姗OLTZTHEORYABSTRACTInthefieldofnewwordsrecognitionresearchersarefocusingontheefrectivefeatureminingandselectionofdetectionmodelofthenewwordisstillbeingstudiedcurrently.Theexistingnewwordfeaturesincludelangua

7、geknowledgefbal疵sandstatisticalfba1}毗弓softhenewword.Commonlanguageknowledgefeaturescontain鲫l伍x.prefixandstringlength.Statisticalfeaturesincludewordfrequency,mutualinformation,leftentropy,rightentropyandDice.Whyanewwordisnew?ItCanbecomparedwiththetime,ifa

8、wordisneverusedbeforebutitappearedatsomepointintimeandWaSwidelyused,thenitcouldbeanewword.Thetimepointoftheappearanceofthenewwordisvague,andCall’tbedefinedaccurately.Weproposeamethodtoquantitycharacteristicofresidencetimed

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。