基于维基百科的中文命名实体语料库构建研究

基于维基百科的中文命名实体语料库构建研究

ID:35069420

大小:5.06 MB

页数:73页

时间:2019-03-17

基于维基百科的中文命名实体语料库构建研究_第1页
基于维基百科的中文命名实体语料库构建研究_第2页
基于维基百科的中文命名实体语料库构建研究_第3页
基于维基百科的中文命名实体语料库构建研究_第4页
基于维基百科的中文命名实体语料库构建研究_第5页
资源描述:

《基于维基百科的中文命名实体语料库构建研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、■■Hi^^g学校代码;10285H学号:20134227020Hi,"'々襄1U、爭t'I苗SOOCHOWUNIVERSITY‘祉;缸kHH'IlM■■‘、'如k开■m妈H^BSf.基于维基百科的中文命名实体语料库构建研究■IBBChineseNamedEntityrusCop研究生姓名徐志浩I指导教师姓名朱巧明I专业名赖计算机科学与技术II硏究方向自然语言处理八所在模部计算机科学与技术学院?论文提交日

2、期2016年5月■■'由—■'■■■■———■—-r击,!嗦..;;气-"--T.V:;.^‘.己、..".?如楼:.";基于维基百科的中文命名实体语料库构建研究中文摘要基于维基百科的中文命名实体语料库构建研究中文摘要作为信息抽取的一个子任务,命名实体识别是自然语言处理研究中十分基础而又重要的工作,在机器翻译、自动问答系统、实体关系抽取等工作中有着重要的应用。基于统计机器学习的命名实体识别方法需要大量人工标注的语料,这些语料的标注,需要投入大量的人力,并且语料的规模及其领域

3、范围都相对有限。针对这些问题,本文基于中文维基百科,自动构建了中文命名实体语料库,主要研究内容如下:(1)中文维基百科条目的实体分类。中文维基百科目前已收录86万多个条目,这些条目中包含了大量的命名实体。本文从维基百科页面中提取信息框和页面分类中的有效特征,并结合中文特点,加入扩展特征及词义特征,采用基于SVM的方法对中文维基百科条目进行实体分类;(2)基于维基百科的命名实体语料库构建。本文利用维基百科中的内链接信息和对应的实体类别信息自动标注维基百科文本中的命名实体,再通过补充标注和句子选择来自动构造大规模的命名实体语料。最后通过抽样统计和封闭测试来

4、评估语料的标注质量;(3)维基百科命名实体语料库的应用。本文将自动标注语料与手工标注语料进行了封闭测试的性能对比,并且通过混合测试和跨领域测试来验证自动标注语料的有效性。本文的实验表明,维基百科条目的命名实体分类可以取得很高的性能,在此基础上自动构建的命名实体标注语料,虽然总体性能还不能和人工标注的语料相比,但在混合测试中显示了其对手工标注语料的帮助,在特定的领域中也可以超过某些语料库。因此基于维基百科自动产生的命名实体语料库具有较好的研究和应用潜力。关键词:命名实体识别;维基百科;语料库;自动标注作者:徐志浩指导教师:朱巧明钱龙华IAbstractR

5、esearchontheConstructionofaWikipedia-basedChineseNamedEntityCorpusResearchontheConstructionofaWikipedia-basedChineseNamedEntityCorpusAbstractAsasubtaskofInformationExtraction(IE),namedentityrecognition(NER)isoneofthemostfundamentalandessentialtasksinNaturalLanguageProcessingrese

6、arch.Itplaysanimportantroleinthetasksofmachinetranslation,automaticquestionansweringsystems,andentityrelationextraction,etc.ThemachinelearningbasedmethodforNERrequireslargescaleannotatedcorporawhicharelaborintensiveandyetlimitedinscaleanddomaincoverage.Regardingtothisproblem,thi

7、spaperautomaticallyconstructsaChinesenamedentitycorpusbasedontheChineseWikipediawithitsgoalsasfollows:(1)ClassifyingentitiesinChineseWikipedia.ChineseWikipediahassofarincludedover860,000entries,andmostofwhicharenamedentities.UsingeffectivefeaturesextractedfromWikipediainfoboxesa

8、ndcategories,alongwithadditionalChinese-oriente

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。