齐普夫定理ppt课件.ppt

齐普夫定理ppt课件.ppt

ID:59764587

大小:155.00 KB

页数:28页

时间:2020-11-23

齐普夫定理ppt课件.ppt_第1页
齐普夫定理ppt课件.ppt_第2页
齐普夫定理ppt课件.ppt_第3页
齐普夫定理ppt课件.ppt_第4页
齐普夫定理ppt课件.ppt_第5页
资源描述:

《齐普夫定理ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、文献计量学05齐普夫定律大纲齐普夫与最省力法则齐普夫定律的形成齐普夫定律的基本原理齐普夫定律的发展齐普夫定律的应用齐普夫GeorgeKingsleyZipf(1902-1950):美国哈佛大学教授、著名的语言学家和心理学家用大量的统计数据来验证前人有关词频分布规律的研究成果1948年出版了《人类行为与最省力法则-人类生态学引论》HumanBehaviourandthePrincipleofLeastEffort:anIntroductiontoHumanEcology.Addison-Wesley1949齐普夫的最省力法则例子:从A地到B地时,可以走

2、不同的路;从经济上、安全上、时间上并结合本人的主观条件(如身体情况)及客观情况(所处的环境)等种种因素来考虑,设法选择一条最符合自己要求的道路,使得自己付出的“力”最小。利用语言表达思想时,会受到两个方向相反的力的作用单一化力:希望尽量简短多样化力:希望能被对方理解单一化力与多样化力取得平衡,使自然语言词汇的分布呈现了双曲线。齐普夫经验法则的形成齐氏定律形成的基础齐氏定律的确立齐氏定律形成的基础频率词典(词表)每一个词在一定长度的文件中出现的频率两个最基本的数量指标词的出现频率、词的序号艾斯杜(J.Estoup,速记员)发现(1916)较长的文章中,

3、词频分布的定量化形式,Nr×r=C(常数)词的序号:1,2,…,r,…,D(1:绝对频率最大的词,D:绝对频率最小的词)词的绝对频率:n1,n2,…,nr,…,nD贡东(E.Condon)的公式贡东:美国贝尔电话公司物理学家,电话线路的通讯能力根据德韦和阿叶斯的资料,得到词频分布图词的序号的对数为横坐标logr词的绝对频率的对数为纵坐标lognr定量公式:fr×r=C令:tanα=γLog(rγ×nr)=logCC的值究竟是不是常数,还必须加以验证齐普夫定律的确立检验E.Condon关系式的可靠性并研究C的性质确定c是一个参数,使得验证了单参数词频分

4、布公式的正确性Fr×r=c(或者pr×r=c)齐普夫定律的基本原理齐普夫定律的基本内容齐普夫定律的图像描述齐普夫定律的局限性齐普夫定律的基本内容齐普夫定律fr×r=cFr:频次,r:等级序号齐普夫定律的“最省力法则”的解释任何语言中,凡是使用频率最高的词,功能总是不会太大;因为其本身在这个场合中价值小,因而传递它们所需要的“力”就不大。齐普夫定律的图像描述横坐标:等级序号r纵坐标:相应的频率f等级r与频率f均取对数。虚线:lnr+lnf=lnc实线:blnr+lnf=lnc(斜率为b)齐普夫定律的局限性对出现频率特别高的词和特别低的词,并不能完全地反

5、映分布规律低频率的词,序号相同的很多高频率的词,序号相同的词随着频率的增高而越来越少齐普夫定律的发展朱斯(M.Joos)修正芒戴尔伯特B.Mandelbrot修正式布斯(B.Booth)的齐普夫第二定律朱斯修正式单参数词频分配律--〉双参数词频分布律Pr=cr-γ中,c和r的负指数(以γ表示)都是参数γ不是一个常数而是一个参数当词典收词多时,γ会增大,即图像中的α角会增大;当收词少的时候,γ会减少,α角会变小。双参数词频分布公式Pr=cr-γγ>0,c>0,对于r=1,……,D,参数γ,c要使当γ=1时,公式变为Pr=cr-1,就是齐普夫的单参数词频

6、分布律芒戴尔伯特修正公式三参数频率分布律Pr=c(r+a)-b0≤a<1,b>0,c>0,对于r=1,……,D,参数a,b,c要使参数c:与出现频率最高的词的概率有关参数b:与高概率词的数量多少有关,对于r<50的高频词,b是r的非减函数,随着r的增大,参数b并不减少参数a:与词的数量n有关。当a=0,公式形式为Pr=cr-b当a=0,b=1时,公式形式为Pr=cr-1齐普夫词汇分布图齐普夫第二定律齐普夫定律可以分成两大定律高频词分布的定律(齐普夫第一定律)低频词分布的定律(齐普夫第二定律)布斯的修正齐普夫的推导Pr=n/T,pr为第r位词出现的概率

7、,T为词的总体集合中不同词出现的总次数,n为序位为r的词汇的绝对频率仅仅出现一次的词汇,可能有许多个,一般而言:布斯修正公式称齐普夫第二表达式英文正文中低频词的数量I1为出现一次的词的数量In为出现n次的词的数量与正文的长度和常数C无关,仅与单词的频率有关n=2,3,4……齐普夫定律的应用文献标引和词表编制信息检索在图书情报管理中的应用词表编制叙词表和标引可以提高计算机检索的效率根据齐普夫定律的频率分布方法,通过标引试验,找出被标引文献与叙词使用频率的分布特征,确定合乎需要的参数值。选用原始文献中的术语,统计其发生的频率,研究分布特征,最后决定合乎使

8、用频率的词文献标引自动标引利用计算机对每一个词的频率进行统计分析,筛选出适合标引的词汇。卢恩(Luhn)的频

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。