推广策略-推广策略-唐代以来汉语文学作品中的字频演变

推广策略-推广策略-唐代以来汉语文学作品中的字频演变

ID:43969464

大小:314.61 KB

页数:8页

时间:2019-10-17

推广策略-推广策略-唐代以来汉语文学作品中的字频演变_第1页
推广策略-推广策略-唐代以来汉语文学作品中的字频演变_第2页
推广策略-推广策略-唐代以来汉语文学作品中的字频演变_第3页
推广策略-推广策略-唐代以来汉语文学作品中的字频演变_第4页
推广策略-推广策略-唐代以来汉语文学作品中的字频演变_第5页
资源描述:

《推广策略-推广策略-唐代以来汉语文学作品中的字频演变》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、唐代以来汉语文学作品中的字频演变刘宇凡I,郭金忠2,陈清华$(1•石家庄经济学院人文社科学院,石家庄,050031;2.北京师范大学管理学院,北京,100086)摘要:研究历史上各个时期屮文文学作品屮的字频分布具有重要意义,可以帮助我们更加深入研究汉语言的历史演变,但这在以前的语言统计工作屮是缺乏的。本文对唐代以来的文学作品按不同时期进行分类建立语料库,字频分析的结果表明自唐代以来人们使用汉字的习惯处于不断变化zm,时期越相近,汉字的使用习惯就更具一•致性。从分布上看,不同时期的字频都可以用一个指数截断的帚

2、律函数进行很好的拟合,随着历史的发展,帚律性质不断衰减而指数性质不断增强。关键词:汉语文学作品;字频分布;指数截断的屣律中图分类号:H087,TP391文献标识码:ATheEvolutionofCharacterUsingFrequencyinChineseLiteraturesincetheTangDynastyLIUYufan1,GUOJinzhong2,CHENQinghua2(1・SchoolofHumanitiesandSocialSciences,ShijiazhuangUniversityof

3、Economics,Shijiazhuang,050031;2.SchoolofManagement,BeijingNormalUniversity,Beijing,I00875)Abstract:ItismeaningfultostudycharacterfrequencydistributionamongChineseliteraturesfromdifferentperiods,becauseitcouldhelpustoknowmoreabouthowChineselanguageevolvesov

4、ertime.ThispaperhaspresentedthatthecharacterfrequencydistributionhasbeenchangingsincelangDynasty,bycountingthecharacterfrequenciesof5classicalaswellasmodemChineseliteratures.Itisclearthatthetwocharacterfrequencydistributionsaremoresimilarwhenthetimesperiod

5、sthattheycamefromarecloser,andallthedistributionscouldbewellfittedbyexponentialpowerlawfunctions.Andtheexponentialpropertyisincreasingwhilethepowerlawfeatureisdecreasingovertime.收稿日期:2010-定稿日期:基金项目:北京师范大学青年教师科研基金作者简介:刘宇凡(19??一),女,讲师,主要研究方向为自然语言处理;郭金忠(1985-

6、),男,硕士研究生,主要研究方向为复杂性理论及其应用;陈清华(1976-),男,讲师,主要研究方向为复杂性理论及其应用,qinghuachen@bnu.edu.cnKeywords:Chineseliterature;characterfrequencydistribution;exponentialtruncatedpowerlaw1引言人们很早就发现,文学作品或者文集中的基本组成也元或元素并不是等概率出现的,少数的字和词使丿IJ非常频繁,而只出现一次的字和词非常多。这种特定的统计分布形式具有非常强的普适

7、性,存在于不同地区不同时间多种语言Z中。这种统计研究除了在理论上讨论语言的共性外,其结果也具有实际应用价值,例如它可以应用于语言信息的计算机化处理,包括文本的压缩、输入法的编码等,以及H前比较流行的文本口动分析和处理,还可以用于语言学习材料的组织和其他方面,如小学课木屮常川字词的选取等。语言的统计研究可以追溯到很久以前,古卬度语法学家在研究《吠陀》时,就进行过单词和音节数目的统计。1898年德国学者Kaeding编制了世界上第一部频率词典《德语频率词典》。1935年和1949年哈佛大学语言学家Zipf先后出

8、版了2本著作山刀,提出了著名的Zipf规律(或齐夫定律)。他在总结前人统计发现的基础上,指出在文集中的词出现不是等概率的,他们满足这样的形式:〃(厂)=0",其中P(厂)为排序在第厂位置的词出现的频率,0为Zipf指数,C为常数。后续一些研究发现西班牙语、法语、爱尔兰语⑶、希腊语⑷、卬度语⑸、土耳其语⑹均满足这种分布特征,其至现在己经灭绝的语言也是如此⑺。目前,随着计算机技术的发展,对语料库的统计工作变得非常简单

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。