欢迎来到天天文库
浏览记录
ID:36799315
大小:1.43 MB
页数:64页
时间:2019-05-15
《统计语言模型平滑技术和压缩技术的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要随着全社会信息化进程的迅速发展,使用计算机处理语言文字的重要性与紧迫性日益显现出来,自然语言处理系统得到迅速发展。而目前根据计算机语言学经验主义的研究办法得到的自然语言处理系统的核心就是统计语言模型。统计语言模型是利用统计的方法描述自然语言内在规律的数学模型。统计语言模型的发展目前面临的两个主要问题是数据稀疏问题和规模过大问题,为此模型建立以后要对模型进行平滑和压缩。本论文主要针对目前正得到广泛推广与应用的统计语言模型,研究了模型的平滑技术和压缩技术,重点研究了模型的压缩技术。在介绍当前已有的
2、统计语言模型平滑技术和压缩技术基础上,本文针对average-count平滑方法,提出了一种改进方法;针对基于相对熵的剪枝方法优化了其计算方法;针对分组方法提出了一种基于方差的分组方法,然后将改进后的基于相对熵的剪枝方法和基于方差的分组方法相结合,作为本文最终的压缩方法。论文的最后通过统计语言模型性能测试实验平台来测试本文提出的这些改进技术的性能,平台通过测试模型的困惑度大小来测试平滑方法的优劣,通过中文整句拼音输入法的错误率大小来证明压缩方法的好坏。实验表明,本文提出的这些改进技术要好于原有方法
3、。关键词:统计语言模型、平滑、压缩、average-count、相对熵、方差AbstractWiththerapiddevelopmentoftheprocessofinformationsociety,theimportanceandurgencyofusingcomputerstoprocesslanguageisincreasinglyapparent,naturallanguageprocessingsystemhasbeendevelopedrapidly.Currentlyaccord
4、ingtotheempiricalstudyofcomputerlinguistics,thecoreofthenaturallanguageprocessingsystemisStatisticalLanguageModel.StatisticalLanguageModelisakindofmathematicalmodelwhichusesstatisticalmethodstodescripttherulesofnaturallanguage.ThedevelopmentofStatisti
5、calLanguageModeliscurrentlyfacingtwomajorproblems,thedatasparseproblemandlarge-scaleproblem.Afterestablishingthemodel,itneedstobesmoothedandcompressed.ThispaperaimsatthewidelypopularizedandusedStatisticalLanguageModel,researchesthesmoothingtechniquesa
6、ndcompressiontechniquesofmodel,focusingonthecompressiontechniques.Basingonintroducingthecurrentlyavailablestatisticallanguagemodelsmoothingtechniquesandcompressiontechnology,thispaperbringsforwardanimprovedmethodforaverage-countmethodandoptimizestheca
7、lculationoftherelativeentropy-basedpruningmethod.Forgroupingmethods,thispaperbringsforwardagroupingmethodbasedonthevariance.Thenthecompressionmethodwhichiscombinedthepruningmethodbasedonrelativeentropywiththegroupingmethodbasedonvarianceisfiguredasfin
8、alcompressionmethodbroughtbythispaper.Attheendpartofthepaper,statisticallanguagemodelperformancetestingexperimentalplatformisusedtotesttheimprovedtechniquesbroughtinthispaper.Theplatformgetsperplexityformodeltotestthemeritsofsmoothingmethod.Th
此文档下载收益归作者所有