欢迎来到天天文库
浏览记录
ID:46073680
大小:50.50 KB
页数:4页
时间:2019-11-20
《古代农业编纂设计探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、古代农业编纂设计探究1古代农业专题资料自动编纂的意义古代农业专题资料俗称古农书,是指古代论述农业生产及与农业生产有直接关系的知识著作,范围相当广泛,包括农、林、牧、副、鱼以及农产品加工等。简单地说,古代农业专题资料自动编纂是利用计算机自动从古代农业专题资料中发现并摘录某一主题的农业资料,并编纂成册。南京农业大学中华农业文明研究院是国家级农史文献信息中心,收藏了大量的古代农业专题资料。以前本院手工编辑了很多农业遗产选集资料,手工编辑这些资料不仅投入了大量的人力、物力,而且编纂周期很长,所以研究古代农业专题资料自动编纂技术非常重要,主要表现在以下两个方面
2、:首先可以提高本院农业遗产选集编纂的效率,其次由于到目前为止还未有人进行过这项研究,所以该研究填补了古代农业专题资料自动编纂方而的空白。本院的中国农业遗产研究室正承担着“中国农业科技遗产信息数据库”建设项目,不仅在中华农业文明网上成功地搭建了“小国农业遗产信息平台”,而且该数据库的建设工作已经取得阶段性的成绩,主耍建成了以下几个数据库:农史题录库、古代农业专题资料目录库、农史全文库、专题文库、古代农业专题资料全文库、农业遗产选集图文库、农业典籍善本图文库和方志资料图文库,其中古代农业专题资料全文库收集了214种古代农业专题资料全文资料。作为本院的研究
3、生,不仅要参加古代农业专题资料数据库的建设工作,而且要开展古代农业专题资料自动化、智能化处理的研究工作,古农书选集自动编纂就是研究任务之一。2古代农业专题资料自动编纂与自动文摘的关系在研究古代农业专题资料自动编纂技术前,我们首先要弄清古代农业专题资料自动编纂与自动文摘的关系,否则这两个概念很容易混淆。文摘是指准确全面地反映某一文献中心内容的简洁连贯的短文,所谓自动文摘就是利用计算机自动地从原始文献中提取文摘。古代农业专题资料自动编纂和自动文摘不是同一种技术,二者之间有•区别也有联系。首先,处理的对象不同。前者是针对古汉语语料展开的研究,后者主要是面向
4、现代文本的技术。古汉语与现代汉语在词汇和语法上的区别如下:古汉语中,单音词占多数,现代汉语则以双音词为主;古汉语使用了丰富的文言虚词,如“之、乎、者、也”等,现代汉语放弃了所有的文言虚词,转而使用结构助词,如“的,啊,吗,呢”等;古汉语存在人量的词类活用、宾语前置、省略句等形式,这和现在汉语的语法有很大的区别,所以古汉语比现代汉语难理解。在这一点上,古农书选集口动编纂比自动文摘更具挑战性。其次,处理的过程不同。前者主要是一种摘录的过程,而后者不仅是摘录,更重要的还是一种理解的过程。古代农业专题资料自动编纂是根据事先确定好的编纂主题,一般是先给出编纂关
5、键词,然后自动到古代农业专题资料数据库中查找并摘录相应的内容,而自动文摘的中心内容是根据原文归纳提取出来的,所以就这个方面来看,口动文摘比古农书选集口动编纂的要求更高。再次,处理的技术不同。古汉语与现代汉语存在很大的差别,目前已有的很多中文信息处理技术,由于是面向现代汉语的,所以不能直接应用到对古汉语的处理中。比如,就自动分词技术而言,已有的分词词典对丁•古汉语并不适用。最后,二者的联系。无论是古农书选集自动编纂还是口动文摘,汉语词间没有空格,因而都存在着自动分词问题。由于二者都有自动摘录的过程,所以它们都需要通过识别句意的转换,来确定摘录的范围。虽
6、然现有的小文信息处理技术不能直接应用到对古汉语的处理中,但是很多经验和算法是可以借鉴。自动文摘已走过了40年历史,积累了丰富的经验,为本研究奠定了一定的基础。3古代农业专题资料自动编纂的流程设计古代农业专题资料自动编纂的首要条件是将古农书资料电子化,我院通过购买《中国基本古籍》光盘数据库和扫描识别本院保存的农业典籍,目前已经积累了214种古代农业专题资料的数字化资料,为本研究的展开提供了基础。古代农业专题资料自动编纂的过程主要包含以下几个步骤:首先,确定编纂的主题,即给出编纂关键词;其次,在数据库屮查找古代农业专题资料;再次,摘录与该主题有关的古农书
7、信息;最后,整理排版,编纂成册。给出用于描述编纂主题的关键词。如“麦”。根据关键词查找并记录编纂主题所在文档的名称。女口,检索出''麦”在《齐民要术》、《王祯农书》等古代农业专题资料的文档中有描述。提取关键词所在文档的章节或者段落。如果关键词出现在某个章节中,首先需要分割这个章节,然后再提取与本主题有关的内容,提取的可能是整个章节,也可能是其中的某些段落。如《齐民要术》第二卷的“大小麦第十”,这一章内容都是有关“麦”的,应该全部提取出来,乂如《齐民要术》第一.卷的“小豆第七”中提到“小豆大率用麦底然恐小晩……”,这只有一段相关,应该就提取这•段类容。
8、将提取的内容按照“编号,书名,
此文档下载收益归作者所有