基于统计的机器学习的中文命名实体识别

基于统计的机器学习的中文命名实体识别

ID:33362091

大小:1.95 MB

页数:71页

时间:2019-02-25

基于统计的机器学习的中文命名实体识别_第1页
基于统计的机器学习的中文命名实体识别_第2页
基于统计的机器学习的中文命名实体识别_第3页
基于统计的机器学习的中文命名实体识别_第4页
基于统计的机器学习的中文命名实体识别_第5页
资源描述:

《基于统计的机器学习的中文命名实体识别》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要计算语言学所研究的命名实体是指句子中有确定含义的名词。由于命名实体包含了文本中重要的信息,命名实体识别是信息抽取研究中最有意义的研究内容之一。另外,文本中频繁出现的命名实体,也是制约分词精度提高的最主要原因。其识别的好坏将直接影响分词精度以及其后的词性标洼和句法分板的精度,命名实体的自动识别也是汉语分词的关键问题和热点问题。因此研究命名实体自动识别具有重要的理论意义和实际意义。在汉语文本处理中通常关注的命名实体可以分为7个类别:“人名”,“地名”,“机构名”,“日期”,“时间”,“货币”,“百分比”。且前命名实体识剐主要使用两种方

2、法:基于统计的方法和基于规则的方法。前者利用统计的方法从真实的文本自动抽取命名实体的构成规律。通过调练的语言模型自动识剐命名实体;后者主要利用语言学家的理性知识,通过语言学家书写的规则识别命名实体。本文运用统计与规则相结合韵方法,一方预利用了较大规模的语料库来谢练,统计命名实体的用字用词规律。另一方面,从已经标注的语料库中提取了大量用于识别的规则,最终成功的实现了这些命名实体钓识黝,识翳的精度比单纯基于统讦的方法和单纯基于规则的方法都有所提高,具体地,本文的工作主要集中在以下几个方面:1.汉字编码转换。汉字编码是汉语文本进入计算机处理

3、的第一步。汉语由于存在简体、繁体两种体统,编码比较复杂,编码的格式并不统一。本文研究并实现了汉语不同编码体统之前的转换,支持当前所有主要汉语编码间的转换并实现了多种汉字符号集的共存。为后面的文本预处理和命名实体识别提供了基础。2.非汉字符号和数字识别。非汉字符号和数字是文本中比较容易识别的部分,可以在命名实体识别之前进行处理。本文首先对不同格式、不同内容的文本进行了分旬处理,然后对文本中的非汉字符号,如百分比、金额、阿拉伯数字等,以及汉字数字进行了识别。3.基于评价函数的人名地名识别。本文通过对大规模标注语料进行训练,统计出入名、地名

4、的用字、用词和上下文特性,用基于统计的评价函数对侯选人.I.基于统计的机器学习的中文命名实伴识别名、地名进行打分,通过运用动态规划方法识剐出人名、地名在文本中可能出现的位置。4.基于决策树的命名实体识别。引入机器学习的方法,设计了一种基于决策树的识别模型,结合了命名实体句法组成的基本结构特征和上下文特征,该方法不依赖于分词系统,可以对分词过后韵语料进行处理,同时也对其它命名实体进行了识别。5.基于模板匹配的机构名识别。通过真实语料中获取的大量机构名,对机构名的组成进行了深入的剖析,总结出识别机构名的模板,提出了一种基于模板匹配的汉语机

5、构名识别方法。6.介绍集成基于多种策略的命名实体识别技术的两个系统,并分别给出若干示例,说明命名实体识别在其中的作用。目前的实验结果表明,本文所采用的统计与规则结合的方法,获得了比较理想的识别精度,所做的命名实体识别覆盖了命名实体的所有类别,并考虑到了汉语文本的预处理中存在的问题。所做工作具有一定的研究意义和实用价值。关键词:命名实体识别,统计,机器学习,规则,文本预处理AbstractNamedEntity(NE)Recognition(NER)istoelassifyeverywordinadocumentintosomepred

6、efinedcategories.Inthetaxonomyofcomputationallinguisticstasks,itfa/Isunderthedomainof‘‘informationextraction”,whichextractsspecifickindsofinformationfromdocument.inotherhand,Namedentityrecognition’sresultisdecisivetoprecisionofthelattersegmentation,tagging,parsing.Inone

7、word,theresearchandapplicationofNERareofgreattheoreticalandpracticalsignificance.TheNEtaskistoidentifyallnamedlocations,namedpersons,namedorganizations,dates,times,monetaryamounts,andpercentagesintext.statisticsandrules.Therearetwotypicallypreviousapproachesusedinthista

8、sk.OneisNERbasedstatistics.whichautoextractNEinformationfromrealcontextandthenuseittotrainsystem.TheotherisNER

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。