政策解读 > 政策解读

《纸质档案数字复制件光学字符识别(OCR)工作规范》解读

浏览量:

2019年12月16日,档案行业标准《纸质档案数字复制件光学字符识别(OCR)工作规范》(DA/T 77—2019)(以下简称《规范》)由国家档案局正式发布,并将于2020年5月1日起实施。《规范》规定了纸质档案数字复制件光学字符识别(OCR)工作的组织、实施和管理要求,确定了开展档案OCR工作的总体原则、工作流程、质量规定等内容,尤其是对归档章、文件处理单、公章等具有档案特征的内容提出了识别要求,并明确评价指标,对于引导并规范档案OCR工作、进一步提升档案信息化工作水平具有重要意义。


编制背景与工作思路

1编制背景

档案OCR是指通过信息技术对纸质档案数字图像文件中的字符形状进行识别、文字转换和文本输出、呈现的过程。一方面,档案OCR是档案信息化工作的重要内容。随着纸质档案数字化的普遍开展和电子档案管理的日渐成熟,档案OCR对于运用电子档案管理思路推动纸质档案管理、实现纸质档案与电子档案融合管理具有很强的现实意义。同时,档案OCR是档案从数字化向数据化转化的重要步骤,是档案数据化工作的重要环节。另一方面,档案OCR也是提升档案工作水平的重要手段。《规范》第9.2条明确了OCR成果应用的3个场景,即通过数字档案馆(室)应用系统实现全文检索,提高档案信息检索效率;辅助开展档案自动著录、目录质量核查,以及纸质档案数字复制件挂接准确性核查等业务工作;结合数据挖掘技术开展数据分析、知识管理、词库建设等工作,提出了档案OCR工作在推动档案工作方面的重要价值。

《规范》列入2016年档案行业标准制修订项目计划,由国家档案局档案馆(室)业务指导司、青岛市档案馆起草。2017年2月,形成标准征求意见稿,向各地、各部门征求并采纳意见后形成标准送审稿。2017年4月,标准送审稿通过专家评审。2019年5月,标准送审稿提交档标会审查通过。

2工作思路

档案OCR不是一项孤立的工作,需要与数字档案馆(室)建设、档案数字化工作等密切结合起来实施,并遵循以下工作原则:一是档案OCR应当纳入数字档案馆(室)资源建设范畴,统筹规划、有序实施,逐步实现常态化。二是档案OCR应当科学开展,以有利于实现档案信息检索和计算机辅助编目、编研开发、数据挖掘为原则。三是档案OCR应当基于档案数字化工作,档案OCR成果与纸质档案数字复制件之间应建立准确、可靠的关联关系。四是应当采取有效的管理和技术手段,加强档案OCR过程管理和质量控制,确保档案OCR过程规范、成果可靠、数据安全。五是涉密纸质档案数字复制件的OCR工作,应符合涉密档案相关管理和技术要求。


工作组织与流程管理

1工作组织

档案OCR工作组织主要包括机构及人员、流程控制、工作文件与元数据要求等。

(1)机构及人员要求

档案OCR工作要求建立机构配备相应素质和技术水平的工作人员,组织开展档案OCR工作的统筹规划、组织实施、协调管理、技术保障、安全保障、监督检查、成果验收和长期保存等。《规范》建议与纸质档案数字化工作统筹配置工作机构和人员。档案OCR工作实行服务外包的,应从企业性质、股东组成、安全保密、企业规模、注册资金情况等方面严格审查档案OCR服务供方的相关资质;从规章制度的建立健全程度等方面考察服务供方的管理能力,建立权责明确、覆盖工作全过程的监督机制和安全防范机制,确保档案信息安全。对外聘的工作人员,应进行安全审查,按规定进行保密教育。

(2)流程控制要求

应依据相关技术标准,对档案OCR图像导入、图像预处理、比对识别、修改校正、成果整理输出等业务环节全过程进行有效控制。应加强对档案OCR工作全流程的质量管理和安全管理,建立完善的质量、安全问题发现、修正机制,确保OCR成果质量和档案信息安全。

(3)工作文件与元数据要求

应建立档案OCR工作方案、技术方案、工作审批材料、流程控制材料、数据验收材料、项目验收报告、成果移交材料等管理工作文件,采取服务外包的还应包括项目招标文件、投标文件、中标通知书、项目合同、保密协议、操作规程、监管记录等,加强对档案OCR工作的管理。应参照相关标准,提出档案OCR工作流程中相关元数据设计、捕获、著录和管理的基本要求,与对应的纸质档案数字复制件管理过程元数据实施融合管理,并纳入数字档案馆(室)应用系统数据库。

2工作流程

档案OCR主要包括图像导入、图像预处理、比对识别、修改校正、成果整理输出5个业务环节。其中,图像预处理包括二值化、图像降噪、倾斜校正、图像监测。对比识别包括版式分析、档案特征分析、识别与匹配。成果整理输出包括成果整理、成果输出、成果验收等(如图所示)。《规范》规定的是较为传统的OCR工作流程,有条件的也可以运用机器学习(ML)和卷积神经网络(CNN)等技术开展OCR工作。

在5个业务环节中,比对识别是关键环节,《规范》要求针对档案特征进行分析、识别和匹配。其主要内容包括:

档案OCR工作流程图

(1)归档章分析

要求建立归档章式样库,自动识别图像中的归档章,并根据归档章样式,识别出全宗号、年度、机构、保管期限、件号、页数等字段位置。

(2)公文要素分析

要求建立公文格式库,可准确识别公文的版头、主体、版记3部分,识别公章、签章等区域,比照公文样式,识别公文正本的密级和保密期限、紧急程度、发文字号、签发人、标题、主送机关、正文、附件说明、发文机关署名、成文日期、附注、附件、抄送机关等公文要素,但份号、发文机关标志、印章、签发人签名章、印发机关和印发日期、页码等公文要素不需要识别。

(3)表格分析

要求建立单独表格处理模块,建立专用表格模板定义工具,自定义文件处理单、发文稿纸、备考表等表格模板,识别表格中的字段位置。对于文件处理单或发文稿纸,要求识别起草人、签发人、起草时间、签发时间、阅办意见、批办意见、办理结果等内容。

(4)印章分析

要求识别印章图像位置,存储印章图像,建立印章名称与印章图像的关系库,用于版式恢复。

质量规定与成果要求

档案OCR质量要求表

1质量规定

《规范》从识别准确率、强抗噪能力、识别速度、版面还原度4个方面对档案OCR质量提出了要求(如表所示)。需要特别说明的是,在档案OCR质量要求中,识别速度指标与识别准确率指标应当同时适用。

2成果要求

(1)成果形式

《规范》要求,档案OCR成果应同时保存为纯文本形式和双层PDF/OFD文件形式。保存纯文本形式的,应以纸质档案的件或页为单位输出档案OCR成果,即纸质档案数字复制件保存为一个文件的,档案OCR成果保存为一个TXT文件;纸质档案数字复制件按收发文处理单、正文、定稿等保存为多个文件的,档案OCR成果分别保存多个TXT文件;纸质档案数字复制件按页保存为多个文件的,档案OCR成果每页保存一个TXT文件。保存为双层PDF/OFD的,应根据纸质档案数字复制件版式文件格式,自动形成支持全文检索的双层PDF或OFD文件。

(2)保存要求

《规范》要求,以纯文本形式保存的档案OCR成果应使用档号作为文件名,可在存储载体中以按照档号构成项逐级建立文件夹单独保存,也可与纸质档案数字复制件统一保存。支持全文检索的双层PDF或OFD文件可与对应的纸质档案数字复制件统一存储。对于档案OCR成果中的党政机关公文要素,应按照档案著录规则和电子档案元数据规范,保存到数字档案馆(室)应用系统数据库中。


文章来源:《中国档案》2020年第2期   如有侵权请立即与我们联系,我们将第一时间处理

光典信息发展有限公司(上海信联信息发展股份有限公司旗下企业)

法律公告 | 隐私声明 | 联系我们Copyright © 2021. www.aesinfo.cn.All Rights Reserved.

沪公网安备 31010702007084号沪ICP备2021003609号-7

联系信息

光典信息发展有限公司

  • 客服电话:

    4007200100

  • 在线QQ:

    4007200100

  • 网      站:

    www.aesinfo.cn

  • 邮      箱:

    aes@cesgroup.com.cn

  • 地       址:

    上海市普陀区中江路879号天地软件园11号楼

  • 公众号

感谢您的支持,请准确填写以下资料,客服人员尽快为您提供服务。 也可直接联系在线客服,谢谢。

  • *姓      名
  • *手机号码
  • *手机验证
  • *邮      箱
  • *企业名称
申请试用
我同意接受光典信息发展隐私说明

法律公告

本网站由光典信息发展有限公司设立,在您进入、浏览和使用本网站之前,请您仔细阅读本法律声明,如果您继续进入本网站,即意味着您已阅读、理解并同意接受本声明约束,并遵守所有适用的法律和法规之规定。如果您不接受本法律声明,请不要使用本网站。

版权声明

本网站提供的任何内容(包括但不限于数据、文字、图表、图像、声音或录像等)的版权均属于光典信息发展有限公司或相关权利人,未经光典信息发展有限公司或相关权利人事先的正式书面许可,不得以任何方式修改、复制、公开展示、公布或分发,或以其他方式进行使用,不论用于任何商业或非商业目的。任何未经授权使用本网站的行为都将违反《中华人民共和国著作权法》和其他法律法规的规定。

商标与域名声明

光典信息发展有限公司网站(www.aesinfo.cn)使用的所有商标,未经光典信息发展有限公司或相关权利人书面授权,任何组织、单位或个人不得以任何方式使用。

www.aesinfo.cn域名为光典信息发展有限公司所有。未经光典信息发展有限公司书面授权,任何组织、单位或个人不得以任何方式使用。

指向本网站的链接

如希望作指向到本网站的链接,请联络我们;在获得光典信息发展有限公司的书面许可后,方可链接本网站。光典信息发展有限公司认为不再合适链接时,有权随时取消对链接的许可。

其他网站的链接

本网站中所链接的光典信息发展有限公司以外的网站,不在光典信息发展有限公司的管理之下,也不对其站点上的内容和信息承担任何责任。通过光典信息发展有限公司网站访问其他链接网站而发生的任何风险和损害,光典信息发展有限公司不承担任何责任。访问链接网站时,请遵循其链接网站的使用条款及相关法律法规的规定。

光典信息发展有限公司仅为方便您访问而提供他方网站的链接,并非是对链接网站的使用及其登载商品/服务等进行推举,并不意味着光典信息发展有限公司与所链接网站的公司、个人之间有着联合、协作或者合作等特殊关系,也并不表示光典信息发展有限公司认可或承担其他网站的内容或使用上的责任。

其他免责声明

光典信息发展有限公司不保证本网站上任何内容的准确性、及时性、完整性和可靠性以及使用这些内容可能得出的任何结果。另外,光典信息发展有限公司有权在不事先对外通知的情况下,根据自己的判断对本网站内容进行追加、变更、改正、删除、中断/中止登载等。无论任何情况,因本网站内容或对其进行的追加、变更、改正、删除、登载的中断/中止等给用户带来的任何损失,光典信息发展有限公司均不承担任何责任。

光典信息发展有限公司对本网站和其内容的不能使用和使用错误不承担任何责任。

任何情况下,光典信息发展有限公司对于进入或使用本网站引起的任何依赖本网站内容而做出的决定或采取的行动不承担任何责任,对进入或使用本网站而产生的任何损失,包括但不限于业务中断、数据丢失或利润损失均不承担任何责任。

光典信息发展有限公司对于在进入、浏览和使用本网站或从本网站下载任何内容而导致病毒或其他程序对您的电脑系统以及其他任何软件、硬件、IT系统或其他财产的损害或损失不承担任何责任。

当政府司法机关依照法定程序要求本网站披露用户资料时,我们将根据执法单位之要求或为公共安全之目的提供用户资料。在此情况下之任何披露,光典信息发展有限公司均得免责。

任何由于黑客攻击、计算机病毒侵入或发作、因政府管制而造成的暂时性关闭、与本网站链接的其它网站等非光典信息发展有限公司原因造成的用户资料泄露、丢失、被盗用或被窜改等情况或导致的任何法律争议和后果,光典信息发展有限公司均得免责。

若因线路及非光典信息发展有限公司控制范围外的软、硬件故障或其它不可抗力而导致本网站暂停服务,于暂停服务期间造成的一切不便与损失,光典信息发展有限公司不负任何责任。

法律适用和管辖

任何有关本网站和网站声明的争议、纠纷,均适用中华人民共和国法律。任何有关本网站和网站声明的争议,双方协商解决。如协商不成时,您同意由本公司法定地址所在地的人民法院作出裁决。

隐私声明

我方,光典信息发展有限公司,于本隐私声明中陈述我方如何收集和使用来自本隐私声明关联的我方网站及移动网站(以下统称“网站”)的访客个人数据。除非我方书面明确声明本隐私声明同样适用,否则本隐私声明不适用于我方自其他渠道收集的信息,如通过离线或已售产品获得的信息。

主动提交的数据

若您给我们打电话、向我们发送邮件或在我们任一网站上填写表格,您对所提供信息是知情的,因为此类信息须由您主动提交给我们。我们使用此类信息来回应您的请求或与您另行沟通或提供协助。若您通过我们网站进行消费,我们将收集处理您订单的所需信息,如配送地址、所订购产品以及联系信息

被动提供的数据

您访问我们的网站时,您将自动提供来自及有关您的计算机或移动设备的特定信息,包括您在本网站的行为、您使用的硬件和软件类型(如操作系统或浏览器)、cookies 中储存的信息、IP 地址、访问时间、来源网页、您浏览网页所处的地区以及您访问的网页(如适用)。我们在网站上使用跟踪技术(包括“cookies”),以提供个性化浏览和改善网站体验。我们通过此类信息更好地了解网站访客、客户的兴趣并改善我们的网站、服务和产品。我们目前并不回应网页浏览器的“不跟踪”信息。

数据共享

我们不会出租、出售或以其他方式分享个人资料,除非:

我们可能会披露您的个人信息,以 (a) 遵守相关法律、监管要求以及回应合法请求、法庭命令和法律程序;(b) 保护和捍卫我方或第三方的权利或财产,包括执行协议、政策和使用条款;(c) 在紧急情况下,包括保护我方雇员或任何人员的安全;或 (d) 关联调查或防止欺诈事件。 我们可能以涉及销售或转让全部或部分业务或资产的商业交易(或商业交易谈判)目的分享您的个人资料。此类交易可包括任何合并、融资、收购或破产交易或诉讼。 在您的同意下。

我们还可自由使用和分享经汇总和编辑的无法用于识别您个人身份的信息。

数据安全

我们使用 SSL 证书、数据访问限制、防病毒软件和防火墙降低未经授权访问个人数据的风险。但通过互联网或任何无线网络传输的数据无法保证完全安全所以当您将个人信息提交给我们时,请了解安全风险。

隐私政策的变更

我们可能会不时更改此隐私政策。隐私政策的任何更改都会在此页面上发布。如果更改的内容十分重要,我们将通过在服务主页或登录屏幕上添加通知或者向您发送电子邮件的方式通知您。我们也会将此隐私政策的先前版本保留在档案中供您查看。我们鼓励您在使用服务时了解我们的隐私政策,随时了解我们的信息能够帮助您更好地保护隐私。如果您不同意本隐私政策的任何更改,您需要停止使用服务并停用您的账户。

联系我们

如果您对本隐私政策有任何疑问、意见或建议,请通过以下方式与我们联系:

邮箱:aes@cesgroup.com.cn

地址:上海市普陀区中江路879弄11号楼

邮编:200333

客服电话:4007200100

一般情况下,我们将在三十天内回复。

本隐私政策的订立、履行和解释均适用中国法律。如果您对我们的回复不满意,特别是当我们的个人信息处理行为损害了您的合法权益,您可以申请仲裁的方式寻求解决方案。当您使用我们的服务,即意味着您已经同意本隐私政策所示之法律管辖及争议解决方式的有关约定。

立即咨询稍后联系