欢迎来到天天文库
浏览记录
ID:35055667
大小:4.07 MB
页数:54页
时间:2019-03-17
《基于crf的蒙古文人名自动识别》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、?■-■-、'J学校代巧10126学巧313(39022枯.‘王片满分类号缩号护''/娇謹i备,;^\INNERMONGOLIAUNIVERSITY...、.?-C,-、''一、与J,這爾±擊隹繼费.*A?‘審/MAST匿殿BI浸iEETATIOM:?1.....';■私''电''审'、-''.-.V,i'.’甲V'’’'-V..:作.獻''I’'’':-.’:巧、:、^'‘N.二-:试..一一?一
2、—-.r>VtI’一'>--片■学院:计算机学院'r.:y指导教师:高光来教授’’,1..\:斗>专业:计算机科学与技术.专..咱兴研究方向:人了智能''‘':^山,知-.-雌苗絮:.研究生;_才蟲唐V_'..心:..义;;冷.抑、C女皆'。'^-:::...一V..V、,.V..化'.’六^.护游^拌v'''.^-V祐糸::嘴:r''"斬读鶴鱗詔讀V.-‘一'I''.…心如—U,■:.一一.气记‘气A.、—:.?、.’、.一
3、.'V'1-缺学校代码10126:学号:31309022分类号:TP391编号:论文题目基于CRF的蒙古文人名自动识别学院:计算机学院专业:计算机科学与技术研巧方向:人工智能巧名:才轟晶指导教师:高光来教授2016年5月4日巧原创性声明本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成,论文中不包含其他人已经发表或撰写过的研究成果果。除本文已经注明引用的内容外,也一不包含为获得岛塞立去堂及其他教育机构的学位或证书而使用过的材料。与我同工作的同志对本研
4、究所做的任何贡献均己在论文中作了明确的说明并表示谢意。学位论文僻签《:^指旨獅签《:J日期日期:在学期间研究成果使用承诺书本学位论文作者完全了解学校有关保留,即:内蒙古大学有权将、使用学位论文的规定学位论文的全部内容或部分保留并向国家有关机构、部口送交学位论文的复印件和磁盘,允>许编入有关数据库进行检索,也可W采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期间取得的研究成果(含计算机软件、摆序)属于内蒙古大学计算机学院,须征得肉。作者今后使用渉及在学期间主要研究内容或研究成果,蒙古大
5、学计算机学院就读期间导师的同意:若用于发表论文版权单位必须署名为内蒙古大学计算机学院方可投稿或公开发表。WV知指导教师签学位论文作者签名:分名:T《曰期:■jv曰化yY内蒙古大学硕±学位论文基于CRF的蒙古文人名自动巧别摘要蒙古文命名实体识别是蒙古文自然语言处理的基础课题,被广泛地应用于蒙古文信息抽取、机器翻译、文本聚类、信息检索等领域。而在蒙古文命名实体识别中人名所占的比例最大,其识别难度也较大。所,1^蒙古文人名识别的研究对蒙古文信息处理具有非常重要的意义。为了能够正确的从蒙古文文本中识别出人名,结合蒙古
6、文人名的特点和蒙古文人名的识别难点,本文最终使用条件随机场(CRF,ConditionalRandomField)模型实现蒙古文人名识别系统。基于CRF模型的蒙古文人名识别系统由语料预处理、CRF模型训练、CRF模型蒙古文人名预测和系统评测四部分组成。其中CRF特征模板的设计和特征选择是影响CRF模型人名预测效果的主要因素。本文使用文中设计的6种CRF特征模板分析哪些持征利于提升蒙古文人名识别系统的性能。通过测试特征模板发现引入上下文信息和特征组合可W提升蒙古文人名的识别性能。并通过6种特征模板的对比实验发现在设计特征模板时
7、不能过于复杂,W避免因数据稀疏而降低人名的识别效果。此外一一,为了进步提升蒙古文人名的识别性能,本文在特征选择部分共,分别为拉下特征选取了7种特征、中间码特征、地名特征、边界特征、拼音特征、动词特征和格特征,其中边界特征由称谓特征、职位特征和职业特征组一合而成。通过对比实验发现每种特征对蒙古文人名识别效果都有定的提升。最终,融合7种特征设计出最优的CRF持征模板,使得基于CRF的蒙古文人名I基于CRF的蒙古文人名自动识别识别结果的F值达到92.64%,比最大滿模型髙了近2个百分点。关键词:蒙古文人名识别;特征模板;特征选择
8、;条件随机场模型田
此文档下载收益归作者所有