欢迎来到天天文库
浏览记录
ID:39154161
大小:307.00 KB
页数:14页
时间:2019-06-25
《CADAL质检规范1.8》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、CADAL机器质检规范1.机器质检规范1、是否缺少必备文件,检查a.opf、dc.xml、Catalog.xml、otiff、ptiff、ebbrowser.html,缺少任一项,即为质检不合格。2、非法文件检查,检查是否包含0kb文件,如有,质检不合格。3、无效文件检查、在目录meta中是否存在多余文件,如有,质检不合格。4、文件格式检查,检查文件dc.xml、a.opf、Catalog.xml格式是否合法,任意一项不合法即为质检不合格.5、dc.xml与a.opf中共同拥有的信息是否一致,如不一致即质检不合格。6、元数据检查,
2、检查a.opf和dc.xml文件中,索引字段的必备项。如目前检查的必备字段暂定为:题名,语种,发布类型等,如必备字段没有,一律标注为:不详;(英文图书标注为:n.d.),否则即质检不合格。关于具体的资源类型格式如下:古籍古籍民国图书民国图书民国期刊民国期刊现代图书现代图书学位论文学位论文英文图书Book期刊3、pe>期刊侨批侨批报纸报纸7、检查ptiff和otiff中文件个数是否一致,如不一致即质检不合格。8、必备目录检查,检查资源目录结构是否正确、包含meta、ptiff、中文格式的otiff、英文格式的html目录。9、日期规范要求为YYYY-MM-DD,YYYY-MM,YYYY三种格式;没有明确时间的按照著录规范填写;在古籍和民国图书中允许出现类似:清道光二十三年(1843)出版期刊、报纸文本元素与数字化文本创建、出4、版、修改等有关的日期,按规定信息源著录,采用的日期1/6格式应符合ISO8601[W3CDTF]规范,并使用YYYY-MM-DD格式例1:创建日期2004-09-10出版日期1990-10-1010、在元数据中的标点符号要求全部为英文标点,在语言为chi(中文)的数据中title字段、description字段、abstract字段、creator字段、publisher字段等所有出现中文的元数据字段都允许出现中文标点,其他情况下的都为英文标点。11、外文书的元数据中是否出现中文字符(目前只检查title字段),如出现中文字符,即5、质检结果不合格。(一些英文和日文等教材例外)12、古籍的元数据中不准出现阿拉伯数字,如出现,即质检结果不合格。13、语种检查:目前只有英语和中文的,所以语言代码只要对应查世界语言代码表中的英文和中文即可。如以后有新的语种,必须遵循世界语种代码表。14、图像分辨率一定要达到600dpi。15、实际的页数、书名要与查重库中标注的一致。16、正在质检的bookID与已经入库的bookID重复,元数据不同或者bookID相同,元数据也相同。17、目录中的导航文件链接是否有效,如果存在空链接,即质检不合格。18、导航文件(a.opf)是否缺6、少节点,如缺少,即质检不合格。19、导航文件(a.opf)是否缺少节点,如缺少,即质检不合格。20、资源指定类型:Text/html(.html,.htm)Image/Djvu(.djvu)Application/msword(.doc)Image/gif(.gif)Application/pdf(.pdf)Image/.(.jpeg,.jpg,.jpe)Application/postscript.(ai,.eps,.ps)Text/plain(.txt)Application/powerpoi7、nt(.ppt)Tcxt/sigml(.sgml,.sgm)Application/rtf(.rtf)参照MIME1Application/wordperfect5.1(.wp5.1)缺省值:Image/Djvu(.djvuApplication/x-latex(.latex)2.机器质检代码及其语句详解机器质检错误,暂定20项301:缺少必备文件(oebbrowser.html、dc.xml、a.opf、Catalog.xml,缺少任意一项)2/6302:缺少必备目录(检查资源目录结构是否正确、包含meta、ptiff、中文格式8、的otiff、英文格式的html目录)303:目录otiff和ptiff包含文件个数不对应304:有空(0KB)文件305:不是完整的XML文件或含非法字符说明:xml文件必须符合xml语句的规范。例:开头必须以
3、pe>期刊侨批侨批报纸报纸7、检查ptiff和otiff中文件个数是否一致,如不一致即质检不合格。8、必备目录检查,检查资源目录结构是否正确、包含meta、ptiff、中文格式的otiff、英文格式的html目录。9、日期规范要求为YYYY-MM-DD,YYYY-MM,YYYY三种格式;没有明确时间的按照著录规范填写;在古籍和民国图书中允许出现类似:清道光二十三年(1843)出版期刊、报纸文本元素与数字化文本创建、出
4、版、修改等有关的日期,按规定信息源著录,采用的日期1/6格式应符合ISO8601[W3CDTF]规范,并使用YYYY-MM-DD格式例1:创建日期2004-09-10出版日期1990-10-1010、在元数据中的标点符号要求全部为英文标点,在语言为chi(中文)的数据中title字段、description字段、abstract字段、creator字段、publisher字段等所有出现中文的元数据字段都允许出现中文标点,其他情况下的都为英文标点。11、外文书的元数据中是否出现中文字符(目前只检查title字段),如出现中文字符,即
5、质检结果不合格。(一些英文和日文等教材例外)12、古籍的元数据中不准出现阿拉伯数字,如出现,即质检结果不合格。13、语种检查:目前只有英语和中文的,所以语言代码只要对应查世界语言代码表中的英文和中文即可。如以后有新的语种,必须遵循世界语种代码表。14、图像分辨率一定要达到600dpi。15、实际的页数、书名要与查重库中标注的一致。16、正在质检的bookID与已经入库的bookID重复,元数据不同或者bookID相同,元数据也相同。17、目录中的导航文件链接是否有效,如果存在空链接,即质检不合格。18、导航文件(a.opf)是否缺
6、少节点,如缺少,即质检不合格。19、导航文件(a.opf)是否缺少节点,如缺少,即质检不合格。20、资源指定类型:Text/html(.html,.htm)Image/Djvu(.djvu)Application/msword(.doc)Image/gif(.gif)Application/pdf(.pdf)Image/.(.jpeg,.jpg,.jpe)Application/postscript.(ai,.eps,.ps)Text/plain(.txt)Application/powerpoi
7、nt(.ppt)Tcxt/sigml(.sgml,.sgm)Application/rtf(.rtf)参照MIME1Application/wordperfect5.1(.wp5.1)缺省值:Image/Djvu(.djvuApplication/x-latex(.latex)2.机器质检代码及其语句详解机器质检错误,暂定20项301:缺少必备文件(oebbrowser.html、dc.xml、a.opf、Catalog.xml,缺少任意一项)2/6302:缺少必备目录(检查资源目录结构是否正确、包含meta、ptiff、中文格式
8、的otiff、英文格式的html目录)303:目录otiff和ptiff包含文件个数不对应304:有空(0KB)文件305:不是完整的XML文件或含非法字符说明:xml文件必须符合xml语句的规范。例:开头必须以
此文档下载收益归作者所有