欢迎来到天天文库
浏览记录
ID:35066551
大小:2.24 MB
页数:54页
时间:2019-03-17
《基于条件随机场的互联网文本命名实体识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、馨丽个秦Z璋隐ZHONGYUANUNIVERSITYOFTECHNOLOGY硕±学位论文??基于条件随机场的互联网文本命名实体识别研究?刘守喜—■学科口类:王学专业名称:计算机应甩巧乂导师姓名、职称:郑秋生教授20化年5月---'■中原工学院学位论义原创性声明本人郑重声明:所呈巧的学位论文,是我个人在导师的指导下进行的研究工作及取得的研究成果。论义中除了特别加臥标注和致谢的地方外,不包含任何其他个人或集体己经公开发表或撰写过的研究成果。其他同志对本巧巧的后发和所作的贡献均
2、己在论文中作了明确的声明并表示了谢意。一本人学位论文与资料若有不实.愿盧承担切相关的法律责任。立':学位论文作者签名_1守喜在月〇曰/中原工学院学位论文知识产权声明书本人完全了解中原工学院有关保护知识产权的規定,即:研究生在校攻读学位期间论文工作的知识产权单位属于中原工学院。学校有权巧留并向国家有关部口或机构送交论文的复印件和电子版。本人允许论文被蒼閱和借阅。学校可将本学位论文的全部或部分内容編入有关数据库进行检索,可1^^采用影巧、缩印或扫描等复制手段俱存和汇编本学位论文。保密论文待解密后适合本芦明。細学年位论知文作仲者签
3、名;文指导教师签名:>0(6年6月/。曰授予单位代码10465学号或申请号密级中原工学院硕士学位论文基于条件随机场的互联网文本命名实体识别研究刘守喜指导教师:郑秋生教授申请学位级别:硕士专业名称:计算机应用技术论文提交日期:2016年3月论文答辩日期:2016年5月培养单位:中原工学院学位授予单位:中原工学院基于条件随机场的互联网文本命名实体识别研究专业:计算机应用技术硕士生:刘守喜指导教师:郑秋生摘要随着互联网的快速发展,交流方式越来越趋向于网络平台,比较明显的有微博、网络新闻、评论等,这些都属于互联网文本,其形式各种各样。从文本中如何获取有效信息,是目前比较关注
4、的问题,随之而来的命名实体识别就是提取有效信息的一种技术。命名实体识别是从文本中识别出人名、地名、机构名等专有名词,是自然语言处理的一项关键技术,同时也是文本信息处理的重要基础。至今为止,对文本进行命名实体识别较为普遍的方法有三种:基于统计的方法、基于规则的方法、规则和统计结合的方法,三种方法都存在着一些不足之处,如何利用好三种方法进行命名实体识别尤为关键。本文采用统计和规则相结合的方法对互联网文本进行命名实体识别。首先对文本进行规范化,再使用CRF模型,以词、词性、上下文信息等特征进行训练,结合互联网文本的不规范性、随意性和娱乐性等特点,以及若干匹配规则对文本进行命名实体
5、识别。其中在去噪部分使用了新的方法,特征模板组合及参数的选取优化了条件随机场模型,实验结果表明,该方法能够有效的进行命名实体识别。关键词:命名实体识别;条件随机场;互联网文本;匹配规则;特征IRESEARCHOFWEBTEXTNAMEDENTITYRECOGNITIONBASEDONCONDITIONALRANDOMFIELDSSpecialty:ComputerApplicationTechnologyName:LiuShouXiSupervisor:Prof.ZhengQiuShengAbstractWiththerapiddevelopmentoftheInterne
6、t,thewayofcommunicationismoreandmoretendtothenetwork.Examplemicro-blog,networknews,comment,etc.TheyareallbelongtotheInternettextandtheformdiversificationofthewebtext.Howtogettheeffectiveinformationfromthetextisaquestion.That'simportant.Thenamedentityrecognitionisakindofinformationextractio
7、n.NamedentityrecognitionisakeytechnologyofNaturalLanguageProcessing,whichisakeytechnologyinthetext,anditisalsoanimportantfoundationoftextinformationprocessing.Currently,therearethreemethodsfornamedentity.Basedonthestatisticalmethodandbasedonrulesandbasedonstat
此文档下载收益归作者所有