基于论坛语料的未登录词自动识别新方法

基于论坛语料的未登录词自动识别新方法

ID:36800913

大小:2.38 MB

页数:44页

时间:2019-05-15

基于论坛语料的未登录词自动识别新方法_第1页
基于论坛语料的未登录词自动识别新方法_第2页
基于论坛语料的未登录词自动识别新方法_第3页
基于论坛语料的未登录词自动识别新方法_第4页
基于论坛语料的未登录词自动识别新方法_第5页
资源描述:

《基于论坛语料的未登录词自动识别新方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要基于论坛语料的未登录词自动识别新方法计算机软件与理论专业硕士研究生都菁指导教师熊海灵副教授摘要未登录词识别一直是中文分词研究领域的瓶颈。为解决中文分词中未登录词识别效率低的问题,提出基于论坛语料对中文未登录词进行识别的新方法:首先利用网络蜘蛛下载论坛网页;然后对该语料库进行周期性的更新以随时保持语料的新鲜度,以构建一个具备高时效性的语料库;接下来对语料库进行分词,具体是先将MutualInformation函数和DuplicatedCombinationFrequency函数线性叠加构造出新统计量MD(由MutualInformation函数和DuplicatedCombin

2、ationFrequency函数的首字母结合而成),再用MD函数对语料库进行分词产生候选词表;最后通过对比候选词表与原始词表发现未登录词,并将识别出的未登陆词扩充到原始核心词库中,以便在下一次分词过程中可以一次性识别出该未登录词。中文分词与一般英文分词不同,中文的语言构成和使用习惯使得中文分词比英文分词困难很多。在该领域先后产生三种传统的中文分词算法:基于字符串查找的机械匹配算法;基于理解的算法和基于统计的算法。三种算法对于未登录词的识别都存在不同程度的问题:机械匹配算法从根本上就无法实现未登录词的识别;理解算法由于算法复杂、实现难度大,实际开发和应用并不广泛;统计算法在一定程度

3、上可以解决部分未登录词,一度成为比较流行的算法,但是现有的统计算法仍然出现较多误判和无法判定的情况。总的说来,基于统计的算法是一个实际应用中相对可行的一种方法,因此本文提出一种改进的统计算法对未登录词进行识别。具体策略如下:第一,本文首次将网络论坛一天涯论坛,引入未登录词识别研究中,利用网络蜘蛛下载论坛网页。第二,通过预处理网页构建语料库,并对该语料库进行周期性的更新以获取具备较强时效性的语料。第三,将MutualInformation函数和DuplicatedCombinationFrequency函数线性结合构造出新统计量MD,运用该MD函数对语料库进行分词产生候选词表。第四

4、,通过对函数的反复训练,选定较优的阈值,对比候选词表与原始词表发现未登录词。最后根据这种思想设计测试方案,搭建测试环境。通过对新词召回率和分词准确率两个指标,证明本文设计的未登录词自动识别新方法是可行的。关键词:未登录词中文分词网络蜘蛛语料库AbstractAbstractIdentificationofunknownChinesewordsisthebottleneckinthefield.TIlispaperpresentedthatdownloadadequatewebdocumentsfromBBSwitllwebspiderinordertoconstructacorp

5、uswhichwasupdatedperiodicity.Thengeneratecandidatewordslistbyextractingwordsfromthecorpuswiththisnewfunction.Finally,comparethiscandidatewordslistandthepreviouslexicon,SOastorecognizetheunknownwords.Experimentsshowedthattheproposedmethodwasmoree伍cient.DifferentwithEnglishword,Chinesewordhasit

6、sowncharacteristics.AsthecompositionandusehabitofChineselanguage,parserChinesewordisaharderproblemthantheEnglish.Atpresent,theChinesewordsegmentationalgorithmismainlyinthreeways:basedonstringmatchingalgorithms,basedonunderstandingalgorithmandbasedonstatisticalalgorithms.Thesethreemethods,both

7、intheunknownwordtovaryingdegrees,therearesonicproblems:basedonstringmatchingalgorithmsCannotrecognizeunknownwordsfundamentally.BasedOilunderstandingalgorithmismoredifficultandcomplexityofthetimecomplexityandthespacecomplexity.Soitisnotwidelyu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。