[精品]中文机构名识别的设计与实现开题报告

[精品]中文机构名识别的设计与实现开题报告

ID:46477970

大小:84.50 KB

页数:3页

时间:2019-11-24

[精品]中文机构名识别的设计与实现开题报告_第1页
[精品]中文机构名识别的设计与实现开题报告_第2页
[精品]中文机构名识别的设计与实现开题报告_第3页
资源描述:

《[精品]中文机构名识别的设计与实现开题报告》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、中文机构名识别的设计与实现课题背景随着互联网的人规模普及和社会信息化程度的提高,文木信息的快速积累使公司、政府和科研机构在信息处理和使用屮面临前所未有的挑战。一方面,互联网和各种信息机构每天都不断产生大量的有价值的文本数据;而另一•方而,因为技术手段的落后,从这些文本数据资源中获取需要的信息十分困难。人们迫切需要研究出方便有效的工具去从大规模文本信息资源中提取符合需要的简洁、精炼、可理解的知识,文本挖掘就是为解决这个问题而产生的研究方向。文本挖掘也称为文本数据挖掘或文本知识发现,它是指从大量文本数

2、据中抽収事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。[2]文木挖掘的主要冃的是从非结构化的文木文档中提取冇趣的、重要的模式和知识。所以它可以看成是基于数据库的数据挖掘或知识发现的扩展。但与传统的数据挖掘相比,文本挖掘有其独特Z处,主要表现在:文档本身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。直观地说,当数据挖掘的对彖完全由文本这种数据类型组成时,这个过程就称为

3、文木挖掘。文本挖掘在许多方面具冇广泛的应川,例如:主动信息服务方面、信息检索系统方面、专利信息分析方面等等。选题意义文木挖掘最基础、最重要的步骤就是命名实体的识别,识别出文木屮的人名、机构名称等。命名实体识别(NE)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。其中机构名称泛指机关、团体或其他企事业单位,包括学校、公司、医院、研究所和政府机关等的名称。机构名称是专有名词的一个了集,数FI也特别庞大。与人名地名相比,机构名称这类专有名词还很不稳定.随着社会的发展,新机构不

4、断涌现,I口机构不断被淘汰、改组或更名。此外,机构名称的组成还没有国家统一规范,绝人多数未能收入词典【1】。这些事实都说明机构名称的识别与分析是一个很值得研究的问题,对中文输入、机器翻译、人机对话和文本挖掘的其他的应用等口然语言处理领域都具有相当大的实用价值。关于国内外的研究动态H前英文的命名实体的识别已经达到了鮫高的水平,中文由于一些限制,识別命名实体更加困难。中文命名实体识别的难点主要存在于:(1)中文文本没有类似英文文本中空格Z类的显式标示词的边界标示符,命名实体识别的第一步就是确定词的边界

5、,即分词;(2)中文分词和命名实体识别互相影响;(3)除了英语中定义的实体,外国人名译名和地名译名是存在于中文小的两类特殊实体类型;(4)现代屮文文本,尤其是网络中文文本,常出现中英文交替使用,这吋中文命名实体识别的任务还包括识别其中的英文命名实体;(5)不同的命名实体具有不同的内部特征,不可能用一个统一的模型來刻应所冇的实体内部特征。中文命名实体识别的特点是数最众多和构成规律复杂,其屮机构名的识别最为困难。机构名的种类繁多,各有其独特的命名方式,用词相当广泛,只在结尾用词相当集中。长度和边界难以

6、确定使得机构名更难识别。命名实体识别的主要方法分为:基于规则的方法和基于统计的方法。隐马尔可夫模型作为一种统计分析模型,是用于命名实体识别的常用方法。其中,隐马尔可夫模型(HiddenMarkaModel,HMM)是一种统计模型【3】,自20世纪60年代被提出后,成功地应用于语音识别、生物信息、词性标注等领域,具有研究透彻、算法成熟、效率高、效果好、易于训练的优点。因此我们将HMM应用于机构名识别,可以根据机构名的种类、命名方式、用词、长度和边界的不同,形成不同的隐马尔可夫链或函数集,能达到较好的

7、识别效果。三、研究目标及内容(一)系统目标木系统采用隐马尔科夫模型来实现,最终达到识别中文机构名的目标。不仅可以使我们有效地识别中文机构名,述町以提高中文机构名识别的准确性,降低中文机构名识別的复杂度,加深对中文机构名识别的了解和研究。具体要求如下:实现股票交易所、国际组织、商业组织、公私企业、电视台或广播台、政党、宗教组织、乐队或咅乐组织、政府实体、运动队、军队等各类机构名的识别。(二)毕业设计内容1、理论部分本系统采用隐马尔科夫模型来实现,通过对机构名的标注来实现机构名的识别。其中,机构名的标

8、注分为基于分词基础上的机构名标注和不分词的机构名标注两种。基于分词基础上的机构名标注是根据词性的不同,先将文木进行切分,再进行标注;而不分词标注是将机构名看成一个整体进行标注。木系统根据在机构名识别屮的作用,采用Viterbi算法【4】对切分结果进行角色标注,在角色序列的基础上,进行字符串识别,最终实现小文机构名的识别。识别过程屮我们只需要某个词作为特点角色的概率以及角色之间的转移概率。该方法的实用性还在于:这些角色信息完全町以从真实语料库中自动抽取得到。此方法在人名和地名识别的革

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。