欢迎来到天天文库
浏览记录
ID:25353158
大小:57.00 KB
页数:7页
时间:2018-11-19
《社保审计区域语料库构建分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、社保审计区域语料库构建分析-->第1章绪论1.1课题背景和意义上世纪80年代以来随着计算机的发展,计算机语料库的建立和应用技术的研究成为了国内外很多信息处理、语言研究人员及机构的关注焦点。语料库的应用面在不断地扩大,目前主要应用包括:自然语言的处理、文本的分类、机器翻译、信息管理、语音识别等方面。机器对于自然语言的理解包括了对于自然语言中的语法、句法、构词等的研究。语料库(corpus)是指原始的或者经过处理的领域语言信息存放到计算机里的语料文本集。语料库技术是在自然语言资料汇集的基础上进行语言研究的技术,它通常采用统计和划分学习的方法对真实的自然语言中存
2、在的语言规律进行收集提取,从而进一步研究和探索自然语言的理解。自从二十世纪六十年代第一个电子语料库BRoWN的建立以来,语料库工程的研究在世界各国的科学研究中正逐步深化,语料库的技术研究和语料库结合领域知识的应用研究日趋成熟。很多成功的语料库被不断开发出来如:美国Heritage出版社为编撰Heritag。而建立的有400万词条的AHI语料库,牛津大学建立的oTA牛津文本档案库,日本的含有1亿词条的语素标注语料库RWc日语语料库[5]。我国对于语料库技术的研究开始于二十世纪八十年代,结合汉语语言自身的特色和计算机技术的发展取得了一定的成果著名的有北大通过以
3、《人民日报》为语料源建立的包含2700万语料的“北京大学现代汉语语料库”,哈尔滨工业大学的研究的翻译语料库等本文来自于哈尔滨工程大学计算机科学技术学院分布式计算与仿真实验室承担的“国家科技支撑计划”项目—政府预算执行动态审计监测关键技术研究与示范。该课题用来辅助国家智能化的审计部门审计社会保险项目(基本养老保险、医疗保险、生育保险、工伤保险、失业保险、生育保险)。社会保险的操作合法与否关系着千家万户的福社,能否合理、公平、公正的分配社会保险福利关系到国家的长治久安。计算机技术应用到社保审计的实施可以大规模的提高审计的速度和效率,但是计算机要参与审计必须能够
4、识别和理解审计的知识,达到实现大规模自动化的处理审计信息的目的,本课题把语料库处理技术应用于社保审计领域,通过提取汇集大量异构的结构化、半结构化和非结构化的审计语料实现领域知识的完备涵盖,进而提高审计的智能化水平和审计效率。1.2语料库国内外研究现状早在计算机产生之前语料库的研究已经在进行,在人类文明的文字发展中基于文本的词典研究就是语料库研究的早期模式,语料库是基于机械主义的分支—经验主义而提出的I9]。20世纪60年代语料库和计算机技术相结合得到了很大的发展,在人类自然语言处理领域内逐渐发挥了它的作用。也成了现在社会语言研究的热点之一。1.2.1国外研
5、究现状1964年美国学者FranciS和Kueeral主持建设了世界上第一个计算机可读的计算机语料库BrocEnery和wilson对计算机参与下的语料库定义如下:语料库是计算机可读取的一定量文本的集合,抽样的文本可以在最大程度上代表一种语言或者该种语言的变种[42]。语料是为了研究人类的自然语言而收集起来的作为研究原料的语言资料,当前,语料库的技术主要分为两个方向,其一,按照语料库研究的原目的,以纯语言研究为出发点,涉及的范围主要有机器翻译、语言平行语料库、语言对比等。其二,按照特定的领域特征建立的特定的以领域语言应用研究为目的的领域语料库,例如,基于社
6、保领域的事物处理流程构建的语料库来处理本领域的业务就是语料库的特定领域化。语料库的作用是根据已有的语言资料以及己经存在的语言规律和方法来研究语言本身,从而发掘和总结语言发展的方向、推动对语言的理解和应用。语料库的构建本意就是按照经验主义的哲学思想把大量的语料汇集,通过对语料的分析研究揭示语言的规律,促进自然语言的自动化处理,人类本身对自然语言的研究都带有一定的主观性,这样对于语言的应用很难达到客观,因此语料库的构建具有其重要的意义[9]。首先语料库的数据可以客观的反映语言本身的特点,同时语料库可以通过大量的语料来佐证语言的规律,计算机语料库的构建使得应用领
7、域有大量的资源可供研究应用。第3章语料的获取和处理..........23-383.1粗语料集获取..........23-263.1.1粗语料手动抽取..........23-24&-->nbsp;3.1.2粗语料半自动获取流程..........24-263.2细语料先验集获取..........26-283.3细语料的组织..........28-303.4细语料提取..........30-353.4.1双词典参与下关键细语料..........30-333.4.2细语料的获取算法分..........33-343.4.3细语料同义词辨析.....
8、.....34-353.5语料集的更新管理..........35
此文档下载收益归作者所有