基于概率统计技术和规则方法的新词发现

基于概率统计技术和规则方法的新词发现

ID:5382845

大小:230.91 KB

页数:4页

时间:2017-12-08

基于概率统计技术和规则方法的新词发现_第1页
基于概率统计技术和规则方法的新词发现_第2页
基于概率统计技术和规则方法的新词发现_第3页
基于概率统计技术和规则方法的新词发现_第4页
资源描述:

《基于概率统计技术和规则方法的新词发现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第30卷 第20期计 算 机 工 程2004年10月Vol.30№20ComputerEngineeringOctober2004·博士论文·文章编号:1000—3428(2004)20—0019—03文献标识码:A中图分类号:TP311基于概率统计技术和规则方法的新词发现1,21贾自艳,史忠植(1.中国科学院计算技术研究所,北京100080;2.中国科学院研究生院,北京100039)摘要:新词短语的识别是自然语言处理、信息检索和机器翻译等领域的一项基础研究。该文分析了已有短语抽取技术,并结合汉语特点,/提出了基于概率统计技术和规

2、则方法相结合的概念抽取方法。该方法包括高效的“二元语法”统计模型、统计算法、统计选词策略、丰富的规则知识和规则过滤算法。实验证明该方法适用于从大规模语料库中自动高效地发现新词短语。/关键词:新词发现;短语抽取;二元语法;语料库ProbabilisticTechniquesandRuleMethodsforNewWordDiscovery1,21JIAZiyan,SHIZhongzhi(1.InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080;2.

3、GraduateSchoolofChineseAcademyofSciences,Beijing100039)【】AbstractNewwordandphrasediscoveryisbasicresearchinfieldsofNLP,IRandMT.Thepapergivesthemethodbasedonprobabilistictechniquesandrulesfornewworddiscoveryviaanalyzingthecurrenttechniquesofphraseextractionandcombining

4、thespecialtiesofChinese.Thismethodincludesthe"bi-gram"probabilisticmodel,thestatisticalalgorithm,therichrulesandrule-basedalgorithmforwordfiltering.Experimentsshowthatthistechniqueisfitforautomaticallyandeffectuallyextractingnewwords/phrasesfromlargecorpora.【】Keywords

5、Newworddiscovery;Phraseextraction;Bi-gram;Corpus1概述能包含所有的中文词,也不能穷尽所有的组词规则。新词短语的识别是自然语言处理、信息检索、文本挖/本文在分析前人研究结果基础上,本着从实用角度出掘和机器翻译等领域的一项基础研究。从特定领域的语料库发,研究二者的融合方法实现新概念的抽取:以快速的统计方法为工具,自动获取特定领域的新词语、新概念;在此基中发现的新词语、新概念可以丰富人类语言知识词典,帮()础上通过一系列的规则进行过滤。这样既吸收统计方法的快助解决一些歧义切分的问题,提高汉

6、语分词的准确度;另外速,又可保留专家系统方法的质量。新词语常常表达更为精确的概念,这样可以提高以词为特征2系统结构项的文本向量空间模型(VSM)的表达能力。文献[1]通过二元基于概率统计和规则方法的新词发现系统结合了两种方语法抽取词组短语对文本向量进行降维,以克服计算的复杂法的优点,能够快速且高效地在大量的文本中发现高质量的性。文献[2]使用二元语法来提高文本特征向量的质量,进概念。图系统地显示了概念发现的工作流程:首先通过网1而提高了分类的性能。络蜘蛛从Internet下载自己需要的语料,然后对语料库进行“基于规则方法和基于语料

7、库方法是计算语言学论著中HTML解析和分词处理,并将文本表示成方便用元语法进N经常提到的两个术语。基于规则的方法,其核心是根据语言行统计的格式,进而利用公式进行统计选词。此时的结果因学原理和知识制定一系列共性规则和个性规则,以处理自动统计方法自身的局限显得不是很理想。我们结合自然语言处分析中遇到的各种语言现象。另外,自然语言远不是一个精理的方法,进一步分析了统计选词后的数据,总结出一些规心规划的系统,我们难以用一套规则去准确地预测真实文本律并且将这些规律表示成规则。这时就可以有选择地利用这中所出现的各种变异,因此应当用基于语料库的

8、统计方法来些规则选词。当然,规则选词后的结果依然有不尽如人意的研究自然语言。二者都各有优缺点,基于统计的方法不受领词条,但是这时的词条数量较少大约(3000条,这样就使得)域限制,速度很快,容易实现,符合当前自然语言处理面向人工干预成为可能。经过人

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。