基于统一模型的中文社交媒体命名实体识别的研究

基于统一模型的中文社交媒体命名实体识别的研究

ID:20588764

大小:1.44 MB

页数:61页

时间:2018-10-13

基于统一模型的中文社交媒体命名实体识别的研究_第1页
基于统一模型的中文社交媒体命名实体识别的研究_第2页
基于统一模型的中文社交媒体命名实体识别的研究_第3页
基于统一模型的中文社交媒体命名实体识别的研究_第4页
基于统一模型的中文社交媒体命名实体识别的研究_第5页
资源描述:

《基于统一模型的中文社交媒体命名实体识别的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、武汉邮电科学研究院硕士学位论文基于统一模型的中文社交媒体命名实体识别的研究ResearchonNamedEntityRecognitionforChineseSocialMediaBaseonUnifiedModel专业:信号与信息处理研究方向:自然语言处理导师:彭艳兵研究生:黄鹏学号:20150016二〇一八年一月武汉邮电科学研究院硕士学位论文摘要随着信息时代的发展,人们迫切须要从海量的文本信息中快速读懂信息,命名实体识别技术运用而生。命名实体识别是指从文本中筛选和识别出人名、机构名、地名等专有名称和有意义的时间、日期等数量短语并加以归类。对很多文本挖掘任务来说,命名实

2、体识别系统是重要的组成部分,研究命名实体识别模型来提升识别效果的方法具有学术和应用价值,意义重大。本文针对在海量未标注的中文社交媒体文本情形下如何提高其命名实体识别的效果问题,提出了一种对中文社交媒体命名实体识别的统一识别模型(UNER,UnifiedmodelofNamedEntityRecognition)。统一识别模型算法通过权重将一个跨领域学习模型和一个半监督学习模型融合组成。跨领域学习需要确定通用领域和目标领域之间句子的相似度,运用学习率函数来自动调整不同领域句子的学习率,结合转移概率算法,从而实现辅助领域和目标领域之间域的相适应,提高跨领域学习模型的泛化能力。

3、而半监督模型将主动学习与自学习相结合的中文命名实体识别方法,采用置信度函数来调整学习率的方式,不断迭代地从目标域内未标注的语料中提取样本,添加到训练集进行训练,从而选出命名实体。通过主动学习目标域内未标注的信息,极大地降低了人工标注语料的工作量,使得主动学习在海量数据上具有可操作性。实验结果表明:统一识别模型改善了中文社交媒体命名实体识别的效果。统一识别模型融合了跨领域学习模型和半监督学习模型,统一识别模型大大减小人工标注语料的工作和提高了中文社交媒体的命名实体识别效果。关键词:命名实体识别统一识别模型跨领域学习相似度半监督学习置信度I武汉邮电科学研究院硕士学位论文Abs

4、tractWiththedevelopmentofinformationage,peopleurgentlyneedtoquicklyunderstandtheinformationfromthevastamountofinformationtexts,Namedentityrecognitiontechnologyisborn.NamedEntityRecognition(NER)referstotheclassificationandidentificationofquantitativephrasessuchasthename,organizationname,pl

5、acename,andmeaningfultimeanddatefromthetexts.Formanytextminingtasks,NERsystemisanimportantcomponent,theresearchofNERmodeltoenhancetherecognitioneffecthasacademicandpracticalvalue.ThispaperfocusesonhowtoimprovetheeffectofNERundertheconditionofmassiveunlabeledtexts.ThispaperproposeaUNER(uni

6、fiedmodelofNER)inChineseSocial,Theunifiedmodelconsistsofacross-domainlearningmodelandasemi-supervisedlearningmodelwithbyweight.Cross-domainlearningneedstodeterminethesimilaritybetweensentencesinthecommondomainandthetargetdomain.Thelearningratefunctionisusedtoautomaticallyadjustthelearning

7、rateofsentencesindifferentfields.Combinedwithtransferprobabilityalgorithm,soastoachievetheadaptationbetweentheauxiliaryareaandthetargetarea,Improvethegeneralizationofcross-domainlearningmodel.Thesemi-supervisedlearningmodelcombinesself-trainandautonomouslearningforC

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。