基于统计与条件随机场的中文地名识别

基于统计与条件随机场的中文地名识别

ID:34313689

大小:1.80 MB

页数:47页

时间:2019-03-04

基于统计与条件随机场的中文地名识别_第1页
基于统计与条件随机场的中文地名识别_第2页
基于统计与条件随机场的中文地名识别_第3页
基于统计与条件随机场的中文地名识别_第4页
基于统计与条件随机场的中文地名识别_第5页
资源描述:

《基于统计与条件随机场的中文地名识别》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10327学号:1120150633硕士学位论文基于统计与条件随机场的中文地名识别院系:信息工程学院专业:软件工程研究方向:自然语言处理姓名:滕炜指导教师:毛波完成日期:2018年3月21日答辩日期:2018年5月30日ChineseLocationRecognitionBasedonStatisticsandCRFADissertationSubmittedtoNanjingUniversityofFinanceandEconomicsFortheAcademicDegreeofMasterofEngineeringBYTengWeiSupervisedby(Associate

2、)ProfessorMaoBoSchoolofInformationEngineeringNanjingUniversityofFinanceandEconomicsNovember2018I学位论文独创性声明本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除了特别加以标注和致谢的地方外,不包含其他人或其它机构已经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均已在论文中作了明确的声明并表示了谢意。作者签名:日期:学位论文使用授权声明本人完全了解南京财经大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全

3、部或部分内容,可以采用影印、缩印或其它复制手段保存论文。保密的论文在解密后遵守此规定。作者签名:导师签名:日期:II摘要在互联网快速发展的现代社会,作为人类社会生产生活中最重要的信息载体之一,网络中蕴含着大量有价值的地理位置信息。而这些信息大都以网络文本的形式存在,因此,如何从网络文本中提取非结构化的地理位置信息就成了最主要的问题。中文地名的识别是面向中文数字文本的地理空间实体的提取。由于中文地名用字往往构词能力很强,且特征多样,很难从文本中准确定位到地名的位置和边界。对此,本文深入的分析了中文地名的特征,并将地名识别问题转换为序列标注问题,训练条件随机场模型对地名进行识别,同时提出一种针

4、对复杂地名识别的算法,并结合规则对CRF结果进行修正和补召。本文的主要贡献如下:(1)针对目前现有模型对复杂地名的识别精度不高的事实,通过深入分析复杂地名的特点,设计了一种基于信息熵和点互信息的复杂地名识别算法,该算法利用地名数据库生成关联性词典,并基于该词典对文本相邻用字之间的关联性进行计算,从而确定复杂地名与上下文的边界,最终实现复杂地名的识别。(2)提出了一种基于规则的探测窗口地名识别方法。现有的研究中,与条件随机场模型结合的规则方法主要作为对前者识别结果的补充手段,起到修正、排歧以及补召的作用。但由于其直接作用于上层的识别结果,对于原始文本中隐藏的其他未被识别出的地名没有补召能力,

5、因此作用有限。而对于单纯基于规则的地名识别方法,其在识别过程中,需要对句子进行轮询式的规则集合套用,效率非常的低下。而本文方法针对上述两个缺点进行了改进,将规则识别方法直接作用于原文,并且使用地名特征词对原文中的疑似地名位置进行粗略的定位,再结合探测窗口和规则集合进一步确认或排除。从实际结果看,该方法能够将现有的规则集合高效的利用于地名识别,能够更好的与CRF模型配合,提高补召效果。(3)通过爬取权威网站NGAC的地质文章标题数据,结合《现代汉语语料库加工规范》制作了复杂地名语料库,为复杂地名的识别提供训练和验证的可靠语料。关键词:中文地名识别;复杂地名识别;条件随机场;信息熵;点互信息I

6、ABSTRACTWithhighspeedofthedevelopmentoftheInternetinoursociety,asoneofthemostimportantinformationcarriersintheproductionandlifeofhumansociety,thenetworkcontainsagreatdealofvaluablegeographicallocationinformation.However,mostofthisinformationisintheformofwebtexts.Therefore,howtoextractunstructuredg

7、eographicinformationfromwebtextsbecomesthemostimportantissue.TherecognitionofChineselocationistoextractthegeospatialentitiesfromChinesedigitaltexts.Chinesecharactersusedinplacenamesoftenhavestrongwordformationabi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。