基于大规模语料库的新词检测

基于大规模语料库的新词检测

ID:5272908

大小:371.98 KB

页数:6页

时间:2017-12-07

基于大规模语料库的新词检测_第1页
基于大规模语料库的新词检测_第2页
基于大规模语料库的新词检测_第3页
基于大规模语料库的新词检测_第4页
基于大规模语料库的新词检测_第5页
资源描述:

《基于大规模语料库的新词检测》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、计算机研究与发展ISSN10001239

2、CN11—1777

3、TPJournalofComputerResearchandDevelopment43(5):927~932,2006基于大规模语料库的新词检测崔世起刘群孟遥于浩西野文人(中国科学院计算技术研究所数字化技术研究室北京100080)(富士通研究开发中心有限公司北京100016)’(中国科学院研究生院北京100049)(sqcui@ict.ac.cn)NewWordDetectionBasedonLarge-ScaleCorpusCuiShiqi~,LiuQun,M

4、engYao,YuHao,andNishinoFumihito(DigitalTechnologyLaboratory,InstituteofComputingTechnology,ChineseAcademyofSciences,Bering100080)(FujitsuResearch&DevelopmentCenterCo.,LTD,Beijing100016)(GraduateUniversityofChineseAcademyofSciences,Beijing100049)AbstractNewworddete

5、ctionisapartofunknownworddetection.ThedevelopmentofnaturallanguagesrequiresUStodetectnewwordsassoonaspossible.Inthispaper,anewapproachtodetectnewwordsbasedonlarge—scalecorpusispresented.ItfirstsegmentsthecorpusfromtheInternetwithICTCLAS,andsearchesforrepeatedstrin

6、gs,andthendesignsdifferentfilteringmechanismstoseparatethetruenewwordsfromthegarbagestrings,usingrichfeaturesofvariousnewwordpatterns.Whilegettingridofthegarbagestrings,threegarbagelexiconsandasuffixlexiconareused,whicharelearnedbythesystem,andgodresultsareachieve

7、d.Finally,theresultsoftheexperimentsarediscussed,whichseemtobepromising.Keywordsnewword;garbagestring;garbagehead;garbagetail;IWP摘要自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的]nternet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和

8、一个词缀词典对候选新词进行垃圾过滤。最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于lnternet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.关键词新词;垃圾串;垃圾头;垃圾尾;独立词概率中图法分类号TP391法切分发挥着重要作用.中文词法切分的大部分错引言误是由未登录词的识别错误造成的.未登录词主要的形式包括人名、地名、机构名等命名实体,以及时汉语通过派生、复合、缩写等形式产生了很强的间词、数量词和普通的语法派生词等j.对

9、命名实造词功能,而任何一部汉语词典都不可能包含所体的研究[3-5J较多,而且已经取得了较好的效果,有的中文词.在词典中不存在的词称为未登录词,但对普通新词的识别缺乏广泛的研究.但随着政即未登录词的外延是由使用的词典决定的.未登录治、经济、文化的进步,人类生活方式的革新,自然语词识别是中文信息处理中的难点和热点,对中文词言中出现了大量的新词.大规模的搜集新词来扩充收稿日期:200503—04;修回日期:2005—08—11基金项目:国家“八六三”高技术研究发展计划基金项目(2004AAI14010,2003AAll1010)

10、;中国科学院计算技术研究所和富士通研究开发中心有限公司合作项目928计算机研究与发展2006。43(5)现有的词典,是一项很有意义的工作;而把新词检测词识别.方法应用到中文词法分析中,也对分词性能的提高使用基于规则的方法,新词检测的准确率都较很有帮助.本文的讨论重点是对普通新词的检测.高,但如果人工提取

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。