欢迎来到天天文库
浏览记录
ID:34090760
大小:4.38 MB
页数:58页
时间:2019-03-03
《基于大规模语料中文新词抽取算法设计和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、南京理工大学硕士学位论文基于大规模语料的中文新词抽取算法的设计与实现姓名:丁溪源申请学位级别:硕士专业:计算机应用技术指导教师:黄河燕;王树梅201103硕士论文基于大规模语料的中文新词抽取算法的设计与实现摘要IIIIIIIIIIIIIIIIIIIlY1919614中文新词抽取是中文信息处理的基础研究,抽取的新词能直接应用到分词、词典编纂等领域中。由于新词散布于海量的信息中,为尽可能多地抽取到新词,本文研究针对大规模语料进行。首先在综合已有定义的基础上,将新词界定为不含命名实体的未登录词。本文将整个抽取过程分成候选新词
2、集合构造和新词检测两部分。在构造候选新词集合时,为处理规模远超出内存的语料,设计了重复串抽取算法(RepeatsExtractionBasedSplit,REBS)。先将语料按后缀首字符划分为多个集合,通过逐条扫描集合数据,搜索出最大化最长公共前缀区间(MaximizedLongestCommonPrefixInterval,MLCPI)来完成抽取,另外在此基础上实现重复串抽取的同时归并子串。由于进行抽取时无需将全部数据导入内存,所以资源消耗较少;各集合问抽取工作互不干扰,可采用并行处理加快运行速度。使用4.61G纯文
3、本语料进行试验,结果表明内存消耗小于30M,抽取速度最快达每秒1.08M,并能高效地进行子串归并。为提高重复串抽取速度,本文对字串排序效率进行了改进,设计了一种线性时间排序算法,通过比较实验证明了该算法的高效性。新词检测阶段,在最大熵模型中,融合多项语言知识特征和统计特征,实现对非词垃圾串的过滤,并通过实验验证了该方法的有效性。为提高大规模语料下的新词检测速度,对左右熵特征的抽取效率进行改进,该改进算法充分利用重复串抽取的中间处理结果,能高效地对候选新词进行左右熵特征计算。最后在本文研究基础上,设计新词抽取算法,实现了
4、一个新词抽取系统NWES。关键词:新词检测,重复串,子串归并,最大熵模型Abstract硕士论文ChinesenewwordextractionisanessentialresearchofChineseinformationprocessingdomain,theextractednewwordcouldbedirectlyappliedinChinesewordsegmentation,buildingdictionaryandSOon.Becausenewworddispersedinhugeinformatio
5、n,inordertoextractmoreasbetteraswecan,thispaper’Sresearchobjectislargescalecorpus.1hefirst,onthebasisofexistednewword’Sdefinition,inthispaperthewordswhichareoutofdictionaryandnotnamedentityareregardedasnewwords.Wedividetheextractingcoursetotwoparts,newwordcandid
6、atecollectionconstructionandnewworddetection.Andthen,whenconstructingnewwordcandidatecollection,wedesignarepeatstringextractionalgorithmwhichnamedREBS,inordertodeal谢tllcorpuswhichislargerthancomputermemory.Firstly,onthebasisofthefirstcharacterofsuffix,wepartitio
7、ncorpusintomultiplesets,andthenintroduceaconceptofMaximizedLongestCommonPrefixInterval(MLCPI),bymeansofsearchingitwhilescanningdatainsetsitembyitem,weaccomplishthetask.Besides,wereducesub·stringduringtherepeatstringextractingprocess.Thereisnoneedtoimportalldatai
8、ntomemory,SOitwoulddecreaseresourceconsumption,andextractingworksamongsetsdonotinterfere、析theachother,SOitwouldimprovethespeedwhileprocessingparalleled.Weuse4.61gigab
此文档下载收益归作者所有