DAT77-2019 纸质档案数字复制件光学字符识别(OCR)工作规范.pdf

DAT77-2019 纸质档案数字复制件光学字符识别(OCR)工作规范.pdf

ID:51462689

大小:658.99 KB

页数:10页

时间:2020-03-25

DAT77-2019 纸质档案数字复制件光学字符识别(OCR)工作规范.pdf_第1页
DAT77-2019 纸质档案数字复制件光学字符识别(OCR)工作规范.pdf_第2页
DAT77-2019 纸质档案数字复制件光学字符识别(OCR)工作规范.pdf_第3页
DAT77-2019 纸质档案数字复制件光学字符识别(OCR)工作规范.pdf_第4页
DAT77-2019 纸质档案数字复制件光学字符识别(OCR)工作规范.pdf_第5页
资源描述:

《DAT77-2019 纸质档案数字复制件光学字符识别(OCR)工作规范.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中华人民共和国档案行业标准DA/T77—2019纸质档案数字复制件光学字符识别(OCR)工作规范Specificationforopticalcharacterrecognition(OCR)ofdigitalcopiesofpaperGbasedrecords2019G12G16发布2020G05G01实施国家档案局发布1DA/T77—2019前言本标准按照GB/T1.1—2009给出的规则起草.本标准由国家档案局提出并归口.本标准起草单位:国家档案局馆室司、青岛市档案馆.本标准主要起草人:刘芸、丁德胜、杨来青、邹杰

2、.2DA/T77—2019纸质档案数字复制件光学字符识别(OCR)工作规范1范围本标准规定了纸质档案数字复制件光学字符识别(OCR)工作的组织、实施和管理.本标准适用于字迹清晰、文本规范的纸质档案数字复制件的光学字符识别(OCR)工作.2规范性引用文件下列文件对于本文件的应用是必不可少的.凡是注日期的引用文件,仅注日期的版本适用于本文件.凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件.DA/T13—1994档号编制规则DA/T22—2015归档文件整理规则DA/T31—2017纸质档案数字化规范3术

3、语和定义下列术语和定义适用于本文件.3.1字符character供组织、控制或表示数据用的元素集合中的一个元素.[GB18030—2005,定义4.1]3.2字符集characterset多个字符的集合.注:常见字符集有ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等.3.3光学字符识别opticalcharacterrecognition;OCR通过信息技术对图像文件中的字符形状进行识别、文字转换和文本输出、呈现的过程.3.4纸质档案数字复制件digitalcopyo

4、fpaperGbasedrecord纸质档案经过数字化加工过程后形成的,存储在磁带、磁盘、光盘等载体上并能被计算机等电子设备识别的数字图像.3.5档案OCR成果OCRoutcomeofrecord记录通过OCR技术获取的纸质档案数字复制件文字内容的文件.3DA/T77—20193.6识别准确率recognitionaccuracy通过OCR技术识别正确字符的比率.注:识别准确率=(识别正确字符数/应识别字符总数)×100%3.7识别速度recognitionspeed单位时间内通过OCR技术识别字符的数量.4总则4.1

5、档案OCR应当纳入数字档案馆(室)资源建设范畴,统筹规划,有序实施,逐步实现常态化.4.2档案OCR应当科学开展,以有利于实现档案信息检索和计算机辅助编目、编研开发、数据挖掘为原则.4.3档案OCR应当基于档案数字化工作,档案OCR成果与纸质档案数字复制件之间应建立准确、可靠的关联关系.4.4应当釆取有效的管理和技术手段,加强档案OCR的过程管理和质量控制,确保档案OCR过程规范、成果可靠、数据安全.4.5涉密纸质档案数字复制件的OCR工作,应符合涉密档案相关的管理和技术要求.5工作组织5.1机构及人员5.1.1应建立

6、档案OCR工作机构,配备相应素质和技术水平的工作人员,组织开展档案OCR工作的统筹规划、组织实施、协调管理、技术保障、安全保障、监督检查、成果验收和长期保存等.档案OCR可与纸质档案数字化工作统筹配置工作机构和人员.5.1.2档案OCR工作实行服务外包的,应从企业性质、股东组成、安全保密、企业规模、注册资金情况等方面严格审查档案OCR服务供方的相关资质;从规章制度的建立健全程度等方面考查服务供方的管理能力,建立权责明确、覆盖工作全过程的监督机制和安全防范机制,确保档案信息安全.对外聘的工作人员,应进行安全审查,按规定进

7、行保密教育.5.2流程控制5.2.1档案OCR流程包括图像导入、图像预处理、比对识别、修改校正、成果整理输出五个业务环节.应依据相关技术标准,对档案OCR全过程进行有效控制.5.2.2应加强对档案OCR工作全流程的质量管理和安全管理,建立完善的质量、安全问题发现、修正机制,确保OCR成果质量和档案信息安全.5.3工作文件与元数据5.3.1应建立档案OCR工作方案、技术方案、工作审批材料、流程控制材料、数据验收材料、项目验收报告、成果移交材料等的管理工作文件,采取服务外包的还应包括项目招标文件、投标文件、中标通知书、项目

8、合同、保密协议、操作规程、监管记录等,加强对档案OCR工作的管理.5.3.2应参照相关标准,提出档案OCR工作流程中相关元数据设计、捕获、著录和管理的基本要求,与对应的纸质档案数字复制件管理过程元数据实施融合管理,并纳入数字档案馆(室)应用系统数据库.4DA/T77—20196方案制定6.1确定工作策略6.1.1OCR工作开展前,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。