李楠 数理统计大作业

李楠 数理统计大作业

ID:21869442

大小:624.98 KB

页数:22页

时间:2018-10-25

李楠  数理统计大作业_第1页
李楠  数理统计大作业_第2页
李楠  数理统计大作业_第3页
李楠  数理统计大作业_第4页
李楠  数理统计大作业_第5页
资源描述:

《李楠 数理统计大作业》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、自然语言中困惑度问题的统计分析姓名:李楠学号:20120102015专业方向:计算机应用技术2012年11月2日21摘要数理统计学是研究随机现象统计规律性的一门数学学科,它以概率论为基础,研究如何收集、整理和分析带有误差的随机数据,建立适当的随机数学模型,并在此基础上对随机现象的本质规律性给出推断和预测,为决策提供科学依据。本文依据数理统计学的知识,通过测试一百多篇语料的困惑度,得出110个样本数据,通过对困惑度样本数据加工处理和汇总后,给出矩估计和极大似然估计、给出参数估计区间、给出参数的检验和检验,进行非参数拟合优度检验,从而得出相应的结论,即判断一个语言模型的好坏。

2、关键词:困惑度;数理统计;参数估计;假设检验21目录前言3一、采集样本及数据整理41、数据的搜集方法及说明2、数据整理:给出频数、频率分布表及说明3、画出直方图和折线图并给出说明4、画出经验分布函数二、假定总体服从正态分布,给出,的估计101、矩估计法2、极大似然估计3、若总体不是正态分布请探求其参数估计,并写出方案三、参数区间估计121、方差未知,求数学期望的置信区间122、数学期望,均未知,求方差的置信区间13注:可先假设总体是正态时进行讨论,若总体不是正态的要给出探求方案四、参数的假设检验141.样本统计数据的t检验142.样本统计数据的检验15五、非参数假设检验(

3、拟合优度检验或K—S检验)171、拟合优度检验或K—S检验检验2、当上述检验被接受或被拒绝时,请结合实际问题给出说明六、结论20总结、评述和体会参考文献2121前言自然语言处理是一项十分庞大而繁复的工程,它是自然科学和社会科学交叉的学科。自然语言处理的目的是实现计算机对语言信息的自动分析和理解。它的研究具有很强的生命力,是当代科学新的生长点,这不仅对信息科学,而且对人知语言学,心理学,以及对国民经济和社会的发展都会起到推动作用。近几年来,全球范围内的自然语言处理学界兴起了对大规模语料库的研究兴趣。这主要是因为计算机产业和信息处理的迅速发展,计算机的存储能力和运算速度大大提

4、高,使得在计算机中存储大量的文本和文本方便快速地扫描,检索成为可能;因特网上的电子文本数量与日俱增,可以比较容易地获得大量语料。另外语音识别领域在20世纪70年代开始逐渐采用概率模型替代原来的基于规则的识别手段,概率模型的参数是通过大量语料经过统计训练得来的。概率模型的识别效果大大优于使用规则的方法,这给自然语言处理领域对文本语料的研究提供了有益的效果。语言模型在自然语言处理中占有重要的地位,尤其在基于统计模型的语音识别、机器翻译、句法分析、短语识别、词性标注、手写体识别和拼写纠错等相关研究中得到了广泛应用。其中,在设计语言模型时,我们通常用困惑度来衡量语言模型的好坏。在

5、语言模型中,它的困惑度越小,说明它越接近真实语言的情况。本实验通过对110篇语料的测量,得出110个困惑度样本的值,对他们进行加工处理,给出关于样本的参数和的极大似然估计,参数区间估计,参数检验和检验以及利用拟合优度检验进行的非参数检验。从而来判断一个语言模型的好坏,为设计语言模型提供依据。21一、采集样本及数据整理1、数据的搜集方法及说明本实验通过利用CMU—剑桥统计语言模型工具包对110篇语料进行处理,得出他们的困惑度值,如表1.1所示。表1.1110篇语料困惑度样本值189.41169.17199.90179.31205.47183.34178.96179.8118

6、9.92159.31216.81188.42221.34168.47159.36211.46194.03198.75190.37205.18187.23191.39198.65193.24199.05176.82188.36183.09197.51197.36199.64194.93192.31172.84181.42188.01196.54194.17194.00183.06186.97209.15172.45177.42173.18164.58180.42190.63175.43175.24177.36184.69188.67187.95165.85182.31194

7、.76196.52202.66181.53185.67176.82194.63194.67220.81184.16192.15180.23196.34179.19196.31189.36192.36192.09179.92194.37191.74180.74204.19163.87190.86198.37170.56201.15186.26183.29177.03192.31191.70157.06182.55181.22175.25182.26203.57177.42183.92194.57194.56163.29157.8

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。