地方志引书挖掘及其引书分析研究

地方志引书挖掘及其引书分析研究

ID:6710547

大小:180.50 KB

页数:10页

时间:2018-01-23

地方志引书挖掘及其引书分析研究_第1页
地方志引书挖掘及其引书分析研究_第2页
地方志引书挖掘及其引书分析研究_第3页
地方志引书挖掘及其引书分析研究_第4页
地方志引书挖掘及其引书分析研究_第5页
资源描述:

《地方志引书挖掘及其引书分析研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、地方志引书挖掘及其引书分析研究衡中青1,2 侯汉清1(1   南京农业大学信息学院)(2   佛山科学技术图书馆)摘  要  本文主要研究中国地方志引书挖掘方法,并以旁征博引著称的广东方志《岭南丛述》(物产)为例,从引书的历史时期、高频被引书、作者生活地域和引书学科性质四个方面进行文献计量学研究,以期探讨中国地方志的引书分析方法。关键词  引书挖掘   模式识别   引书分析 1 引书的识别方法的选择引书,通常指古籍中引用的文献,古籍中引用文献的方式不同于现代汉语。古代文献的书写不分句读,大都没有标点符号,引用文献和他人话语时也没有注加引用符号,如“《》”和“:“””;引书著录形式没有统

2、一标准,有些引书用全名,有些用异名,有些用简称,随纂写人员行文习惯而异,没有统一引用标准,还有些干脆不用书名,只用作者姓名,如某某云,某某曰,等等。因此,古籍中的引用文字,与行文的其他文字没有区别,这给引书的识别带来极大的困难。人工阅读古籍时,若没有古代典籍的目录学、文献学和古代汉语等领域知识,是没有办法识别其中的引用文献的,即使具有这样的领域知识,工作效率也十分低下;而基于字符匹配的计算机,若不经过人为“训练”,则是一片茫然,无从识得引书。问题的解决办法是,由人来编制计算机软件,使计算机“具备”领域知识,辅助人来识别引书,编制引书索引,把人从繁重的引书识别和索引编制的工作中解放出来。计

3、算机引书识别是中文信息处理中自动分词的研究范畴,能否通过计算机自动分词的方法,把地方志中的引书“分”出来?目前,见诸报道的自动分词方法主要有三种类型:①机械分词法,又称词典式切分法;②语义分词法;③人工智能法,又称理解分词法。其中的词典式切分方法是当前应用广泛且十分有效的方法。词典法是目前常用的三大分词方案(词典法、基于规则切分标记法、人工智能法)之一,这种方法的关键技术和步骤有二:一是词典的构造;二是相应的匹配算法,有什么样的词典就有什么样的匹配算法,词典的构造是基础。词典构造的关键点在于词汇的完备性,无论匹配算法设计得多么精巧,词汇网罗不完全,文献的分词也是不完全、不准确的。本项引书

4、识别研究若采用词典法,必要条件是构造一个词汇十分完备、历史上出现过的所有典籍书目词典,即古籍书目词典。但是,中国古代典籍无计其数、无法统计,且散佚太多,到现在为止,没有人能准确说出史上存佚的古籍数目和种类。现有的古籍目录,大多是典藏部门古籍目录,如书目文献出版社1990年代按学科门类出版过《北京图书馆普通古籍目录》15册。即使有通用性的古籍目录性著作,收书也不全面,如齐鲁书社1989年出版胡道静主编的《简明古籍辞典》收词才2000条,才及现存10万种的2%。因此,缺乏一种词汇完备的古籍书目词典,使得采用词典法寸步难行。因为,古籍中的引用文献五花八门,涉及各个学科,中国地方志中的引书更是如

5、此。方志被誉为“地方性百科全书”,引用的典籍也是百科全书式的。况且,有些引用的是地方文献,根本没有大规模地流通过,甚至引用后不久即散佚,少有人知,古籍词典无法收录这种书目。综上所述,采用词典法自动识别中的引书理论上是可行的,但构建具有完备词汇的引书词典却十分困难。既然现有古籍目录不能提供完备的词汇,我们是否可以从方志文献本身着手,来挖掘其中的引书?2 模式提取笔者在阅读方志文献时,发现这样的语言学现象:①古人在引用文献时,为使句子语法完整、语义协调,通常在所引用的文献后面加上“云”、“曰”等谓语动词,我们称为引用方式规则,如“本草纲目云”、“五山志林曰”,等等;②古代典籍的起名也有一定规

6、律,如:《丹铅余录》、《岭南异物录》等典籍名称的最后一字都是“录”字;再如:《南州记》、《粤东笔记》等典籍名称的最后一字都是“记”字,等等,我们称之为命名规则。这样,我们可以提取出这些引用规则和命名规则,应用这些规则(模式)来挖掘方志中的引书。(1)引书引用语言模式我们通过审读文献发现:纂写人员在引用某书时有某种语言习惯,如:“桂海虞衡志云”、“广东新语曰”等等引书引用语言模式。我们提取这些引书引用语言模式,或称引书规则,见表1(2)引书名称特征的语言模式现代人编著学术著作,有其自身起名特点,如《植物学》、《动物学》、《中国科技史概论》,等等,书名后的“学”、“概论”等字表示该书的性质和

7、特征。古人著书,亦是如此。我们通过审读文献发现,“志”、“记”、“疏”、“经”、“注”、“录”、“谱”、“纪”,等等文字使用频率较高,提取它们作为引书名称特征的语言模式,见表1。(3)人名引用的语言模式在中国地方志中,常出现“某某云”、“某某曰”等字样,如“屈大均云”,“苏东坡曰”等等。通过审读文献,我们发现:在叙述某某云、某某曰时,其实质是在引用某某的著作。原因是,当代人不可能与古人直接对话,提及某个人名,实际上提及的是他的某种著

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。