资源描述:
《从中医古籍数据库建设看中医古籍数字化 》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、从中医古籍数据库建设看中医古籍数字化李兵,刘国正,符永驰,裘俭,张伟娜【关键词】中医古籍;数字化;古籍数据库中医古籍是中医药学传承和发展的载体,既具有重要的学术价值,又具有相当的文物价值。最新出版的《中国中医古籍总目》共收录中医古籍13455种,基本上反映了当前我国中医古籍的存世和分布现状。如何在保护的基础上更好地利用这些珍贵的中医药资源是中医药研究人员的历史使命。通过数字化处理,既实现了对中医古籍的永久保存,又可为方便、快捷、无损地开发和利用这些宝贵资源搭建起研究平台。中国中医科学院中医药信息研究所自2002年始,对馆藏中医典籍进行了数字化再生性
2、保护和利用研究,目前,已建成“中医药珍善本古籍多媒体数据库”、“中医药古籍资源数据库”,实现了部分中医古籍的数字化保护与利用。 1“中医药古籍资源数据库”建设 1.1研究背景中医古籍是中华民族几千年来防病治病宝贵经验的结晶,是中华民族的优秀文化遗产。中医药古籍文献中所收载的理法方药、养生保健知识是取之不尽、用之不竭的宝库,具有极高的实用价值。古籍属于不可再生的文化资源,近年来,尽管我国加大了对于古籍的保护力度,使古籍的保存环境得到改善,但随着历史的推进,古籍还是会悄无声息、不可避免地出现损毁,乃至消亡。中医古籍整体保存环境较差,各藏馆保存条件良
3、莠不一,中医古籍保护和传承令人担忧。鉴于此,用数字化手段对中医古籍进行处理,既可以使中医古籍的原图原貌永久保存,又可以通过数据库和网络广泛利用,避免阅读原书对古籍造成的损伤。因此,中医古籍数字化是中医古籍保护和利用的理想方式。中国中医科学院图书馆所藏中医古籍占存世中医古籍数量的一半以上,其中中医珍善本古籍就达2万余册。中国中医科学院中医药信息研究所利用该资源优势,构建了“中医药古籍资源数据库”,现已收录1500种中医古籍的元数据信息和其中的850种中医古籍的原文图像,已经可以通过中医古籍阅览系统实现电子阅览,为中医古籍数字化保护和利用开辟了途径。
4、 1.2“中医药古籍资源数据库”建库流程 1.2.1中医古籍书目的选取 根据中医古籍的年代、版本价值、文献价值、保护等级等确定收录标准,对破损严重的珍善本古籍优先进行数字化处理。 1.2.2数据库结构设计 考虑到对古籍的再生性保护,我们以古籍原文图像作为主要数据来源,部分古籍实现全文本化。由于图像要求的存储空间较大,我们采用支持多媒体数据的oracle9i数据库系统,并对系统结构进行优化,基本解决了运行速度问题。 1.2.3元数据加工 根据古籍文献的特点,按中医古籍的分类、题名、责任者、出版年代、出版者、版本项、版式、卷数、馆藏地、书籍
5、特征、保存状况、复制状况等进行著录,著录规则参见“我国数字图书馆标准规范建设”项目研究成果——古籍元数据著录规则(CDLS-S05-014),对收录古籍撰写提要,力求建立完整的古籍书目数据库。 1.2.4数字化处理 包括古籍的扫描、质检、图像处理、文本录入等。为实现保存和利用双重目的,扫描时采用全彩模式,300dpi,JPEG格式保存,按页码顺序重命名,对扫描后图像的顺序、偏斜度、完整性、清晰度进行检查,并进行纠偏、去污、裁边等处理。对部分古籍进行文本录入,实现图文对照。 1.2.5古籍原文图像标引 采用自主开发的古籍编辑器对文中有效的检索
6、点进行抽取和xml格式标引,如病证方药的名称、索引信息、各级标题等,力求实现图像的全文检索,避免标引过繁或过简,影响检索效果。对标引后数据进行审核。 1.2.6数据发布 将图像数据、元数据、标引数据、文本数据合成、入库,形成中医古籍电子书,发布到阅览系统后进行数据库测试,实现中医古籍的数字化保护与利用。 1.3采用技术数据库采用Oracle9i,数据搜索采用OracleText技术。整个系统采用基于Java的VC设计模式,构建了高内聚、弱藕合、可维护和可扩展的中医古籍数字化系统[1]。 2中医古籍数字化存在的障碍 2.1中医古籍中生僻汉字
7、的处理汉字从产生至今经历了漫长的演变过程,由此也产生了大量的繁简字、异体字、古今字、通假字等。中医古籍数字化过程中遇到的字体障碍有两个方面,一个是对字体的认知障碍,生僻汉字的准确录入需要很深的中医文献学功底,而对于一般的操作人员很难办到;一个是技术障碍,Unicode字符集虽然可以解决字库问题,但是很多软件不支持,常用的输入法和搜索引擎不支持大字符集,很多生僻字仍不能正确显示和检索。用造字的方法费时费力,而且很难共享和检索,生僻汉字的处理仍是中医古籍数字化过程中的一大障碍。 2.2全国古籍数字化标准尚待建立目前,虽然参与中医古籍数字化工作的单位较
8、多,但几乎都处于各自为战的状态,所采取的途径多样,因此产生的数字化成果形式多样,不利于中医古籍数字化发展,也不利于中医古籍