sewm2005 基于混合模型的中文命名实体抽取系统的研究和实现

sewm2005 基于混合模型的中文命名实体抽取系统的研究和实现

ID:34453934

大小:342.50 KB

页数:11页

时间:2019-03-06

sewm2005 基于混合模型的中文命名实体抽取系统的研究和实现_第1页
sewm2005 基于混合模型的中文命名实体抽取系统的研究和实现_第2页
sewm2005 基于混合模型的中文命名实体抽取系统的研究和实现_第3页
sewm2005 基于混合模型的中文命名实体抽取系统的研究和实现_第4页
sewm2005 基于混合模型的中文命名实体抽取系统的研究和实现_第5页
资源描述:

《sewm2005 基于混合模型的中文命名实体抽取系统的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、SEWM2005基于混合模型的中文命名实体抽取系统的研究与实现基于混合模型的中文命名实体抽取系统的研究与实现王睿,张洁,张由仪,于禛,姚天昉(上海交通大学计算机科学与工程系,上海市200030)摘要:本文首先总结分析了中文命名实体抽取的研究现状,认为存在分词、领域和方法三个方面的问题需要解决。随之,作者提出了相应的解决方案:利用规则,对机器分词后的文本进行修正;提出“群山”模型,对不同领域制定不同的语言学规则;统计学方法和语言学方法结合,对不同命名实体采用不同的方法等。根据实验结果,本文得出以下结论:分词的错误将严重影响到最终的抽取结果;领域规则的应用可以提升抽取效果;不同方法的有机结

2、合比采用单一方法要好。关键词:分词;领域;统计学方法;语言学方法ResearchandImplementationonChineseNameEntityExtractionSystembasedonaHybridModelWangRui,ZhangJie,ZhangYouyi,YuZhen,YaoTianfang(DepartmentofComputerScienceandEngineering,ShanghaiJiaoTongUniversity,Shanghai200030)Abstract:Aftersummarizingandanalyzingthestateofthearto

3、nChinesenameentityextraction,weemphasizethatthreefundamentalproblemsofthat,includingwordsegmentation,domain,andmethod,shouldbesolved.Thenwebroughtforwardcorrespondingsolutions:usingrulestocorrecterrorsintextsafterwordsegmentation;establishingspecificrulesfordifferentdomainsbasedonanew“MountainCh

4、ain”model;andcombiningstatisticalwithlinguisticmethodfortreatingdifferentkindsofNameEntityseparately.Accordingtotheexperimentalresults,wecanconclude:wordsegmentationerrorswillaffectonthefinalresultsgreatly;domain-specificruleswerehelpfultoimprovetheextraction;andcombinationofdiversemethodswasbet

5、terthanasingleonedid.作者简介:王睿,男,汉族,本科,主要研究领域为信息检索、问答系统;张洁,女,汉族,本科;张由仪,女,汉族,本科;于禛,女,汉族,本科;姚天昉,男,副教授,硕士生导师,主要研究领域为计算语言学和语言技术SEWM2005基于混合模型的中文命名实体抽取系统的研究与实现keywords:WordSegmentation;Domain;StatisticalMethod;LinguisticMethod1引言当今社会,随着信息时代的到来,如何从海量文本(非结构化)信息中,快速准确地找到我们需要的信息越来越受到人们的关注。对于信息检索(Informatio

6、nRetrieval)技术的研究已经成为一[1]个很重要的领域。传统的方法是依赖关键字检索,但是,关键字检索并不能真正准确有效地获取人们所需要的知识。因此,人们期望引入自然语言的技术来解决这个问题。在引入自然语言技术的信息检索中,命名实体抽取(NameEntityExtraction)又是一个重要的组成部分。因为人们往往把一些信息放在这些命名实体中,再通过这些命名实体之间的关系来表达知识。本文只讨论命名实体抽取这一部分。结合中文信息处理的一些特征,我们总结了一下中文命名实体抽取需要讨论的问题,有以下三个:分词的问题分词是任何中文信息处理的一大难题。当前,对这一问题的处理有三种办法:不分

7、词、利用自动分词系统和人工分词。不进行分词的系统往往出现在早期的一些自然语言处理系统中,效果不是很好;自动分词又可以分两种,一是利用单独的分词系统,二是将分词与后续系统结合;人工分词是为了研究后续技术而暂时避开这一难题的权宜之计。领域的取舍现行的自然语言处理系统一般有开放领域(OpenDomain)的和限制领域(Domain-specific)两种。前者准确率比较低,难度大,但应用范围广,需求量大;后者准确率高,难度较小,但适用范围有限。方法的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。