欢迎来到天天文库
浏览记录
ID:39073068
大小:26.50 KB
页数:3页
时间:2019-06-24
《公文语料库建设浅谈》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、公文语料库建设浅谈语料库顾名思义就是存储语言材料的仓库,通常是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。我们平常所见的公文例文,或者网站上的公文,或者某些部门、单位、学者积累的公文材料,虽与语料库有一定的相似之处,但这些材料积累,往往只是局部的、较为随意的、难成体系的公文收集。我们要建立的公文语料库,是从词语到段落篇章、不同文种、不同层次,甚至不同国家的都有的,材料丰富全面、构造清晰、分类详细、用途多样的公文材料库。公文语料库建设是公文领域十分重要的、有创新性的新生事物,对公文语料库建设的探究既有理论意义又有实
2、践价值。一、建设公文语料库的意义科学的研究往往需要以数据和大量的事实材料为基础,公文语料库的建设将为公文研究解决这一问题并提供科学的理论和方法,为建构公文新理论提供依据。从具体的工作实践上说,建设公文语料库将有助于从词频的角度来比较词汇的运用、反映公文的内容及公文语言的变化;有助于从词汇、句式、篇章等角度为公文写作提供更科学、全面的指导;有助于为公文的各种比较研究提供材料和方法;有助于公文语体与修辞的研究;有助于促进公文写作的创新、提高工作效率;有助于公文的分类管理研究。以语料库为基础建立的公文词典,可以作为公文写作处理、学习研究的工具
3、书。以公文语料库为基础,结合其他先进的科技成果,还可以开发出优质的软件和系统,为实际工作中公文写作与处理提供良好的工具和平台。二、公文语料库的创建创建公文语料库,首先要搜集原始材料录入计算机。然后是进行语料处理,即利用软件进行自动分词、词语标注等,并可以根据需要建立一些子语料库。如果有进一步需要,还可以利用上面取得的信息进行第三步操作,通过随机抽样、检索、统计、分析对比、演绎推理、归纳总结等方法进行具体的研究。下面以党的十五大、十六大和十七大报告为原始材料建立一个小型的语料库,展示一下语料库的构成和具体操作方法。党的十五大、十六大、十七
4、大报告,涉及领域之广,应用频率之高是其他公文难以比拟的。这里利用分词软件对三个报告内容逐个进行自动分词,然后利用数据库软件进行比较和处理,得出每一个报告的用词数量、词频等,形成一个数据集,进而有选择地进行比较,得出一些结论。结论一,篇幅相当,适合对比。三个报告的词汇总量分别为:14185、14156、13621,用词数量分别为:2573、2427、2502,依此可看出三个报告的篇幅基本相当,非常具有可比性。结论二,相同用词,体现联系。通过语料库,很容易得到三个报告相同用词的量,如每两个报告之间相同的词汇量介于1576至1709之间,而三
5、个报告相同的词汇为1376个。通过某些词语在不同大会报告的重复利用率高,还能体现出不同大会报告在内容上的联系;而十五大报告与十七大报告中相同的词汇较少,也可以看出大会内容的不断变化与发展。结论三,特有词汇,显现不同。三次大会报告中特有词语的数量依次为673、394、595,这可以看出:每次大会报告所用词汇都有相当数量的变化;大会时间相隔较远,不同词汇就更多一些。结论四,不同词频,便于研究。我们只从语料库中选择一部分典型的词语为例来对比其词频。某些重要词语在三次报告中出现的频率有着极大的不同,如在三次大会报告中,“邓小平理论”出现的频率依
6、次为42、13、9,“与时俱进”为0、9、7,“小康”为0、23、23,“科学发展观”为0、0、21,“和谐”为0、6、34,“以人为本”为0、0、34。根据这些用词的异同,结合报告本身,可以做许多研究。如可以非常客观地从数据入手来研究各次大会的内容、主题、政策等的相同和不同,比较容易就能够看出各次大会的不同之处及创新之举。同时,用数据说话,不仅一目了然、快捷高效,而且更具说服力。三、公文语料库建设的重点当前,从公文理论与实践的需要出发,公文语料库的建设方向应该是:利用现代设备,面向实际需要,方便公文写作,有利公文处理,提高办文效率,改
7、善工作质量。重点应放在以下几个方面:一是整理公文材料,建立公文生语料库。生语料库就是没有经过加工和切分、没有信息标注的原始材料构成的语料库。这是建设公文语料库的基础工作。建设公文语料库需要选择具有规范性、完整性、代表性、比例合理的材料,因此搜集起来有一定的困难,需要花费大量的人力和时间,同时,因为公文材料具有政治性、地域性等特点,有些公文虽然不是密级文件,但也没有公开发布,还需要相关部门和领导的理解与支持。公文可采用先搜集后整理,边搜集边整理的方式。在整理中可以分门别类,建立子语料库,如按照上行文、下行文、平行文的分类,或按照规范性、通
8、用性、法规规章性公文、执法性公文的分类,或按照不同文种,来进行语料的收集和归类。这种分类的语料库,可以为需要者提供检索服务,还可以为不同文种公文的比较等提供可靠而全面的材料。二是全方位多层次地处理材料,生成
此文档下载收益归作者所有