政策解读 > 政策解读

《基于文档型非关系型数据库的档案数据存储规范》解读

浏览量:

《基于文档型非关系型数据库的档案数据存储规范》(以下简称《规范》)(DA/T 82—2019)由国家档案局于2019年12月16日发布,2020年5月1日起正式实施。《规范》规定了使用文档型数据库存储档案数据的总体要求,提出了使用文档型数据库存储和管理档案数据的基本功能和实施方法,适用于各级各类档案馆、机关、团体、企事业单位对档案数据的存储。

 

编制背景

随着数字档案馆(室)建设的推进,馆藏传统载体档案数字化普遍开展。2018年,国务院发布了《国务院关于加快推进全国一体化在线政务服务平台建设的指导意见》,“互联网+政务服务”“一网通办”在全国深入推进,档案馆面临最直接的问题就是如何高效、快速、敏捷地对接各种业务系统,并且完整地收集、归档、保存各类业务数据。

目前,我国档案部门大都采用关系型数据库存储和管理档案数据。关系型数据库对数据的规范性要求高,能够很好地管理和存储结构化数据,但对数据结构复杂类型多样的非结构化数据的存储和管理存在诸多局限。据统计,档案数字资源中非结构化数据占据绝大部分,未来还将出现爆炸性增长。有效存储、管理、利用非结构化数据是档案工作者必须面对的课题。历时3年,国家档案局档案科学技术研究所于2016年完成了“基于非关系数据库的电子档案存储规范研究及系统实现”国家档案局科技项目,在该项研究成果的基础上,向全国档案工作标准化技术委员会提交了《规范》的立项申请,旨在解决大规模档案数据集合多重数据种类带来的挑战,优化档案数据存储,推动档案数据科学管理。《规范》被列入2017年档案行业标准制修订项目计划。

 

编制思路

《规范》主要以问题与需求为导向,充分考虑档案数据体量大且增长快、类型繁多且结构复杂的特点,切实从我国档案数据管理实际需要出发,详细阐述文档型非关系型数据库存储和管理档案数据的技术要求、基本功能和实施方法。注重适用性、规范性、开放性、互补性,着重先进性与可操作相结合,使其利于实施。

 

主要内容解读

《规范》分10章和2个资料性附录,涵盖了使用文档型数据库存储档案数据所涉及的各个工作环节,构成一个内在关联的整体,能够起到规范使用文档型数据库存储档案数据的作用。

1、术语与定义

《规范》规定的“内容数据”“非关系型数据库”“文档型数据库的拆分”以及“文档型数据库的合并”术语和定义属于国内外首次提出。

2、文档型数据库字段

《规范》提出的字段类型是为了适应不同的内容数据格式以及元数据需要。文档型数据库字段类型包括字符串、数值、日期、时间、文本、二进制等,其中文本字段用于存储文本中的句子和段落,包括从电子文件中抽取的文字信息(或称文本数据),二进制字段用于存储任何类型的字符,包括ASCII字符以及图像、视频、音频等二进制数据。文档型数据库允许创建不同类型的字段,存储任意格式的数据。采用文档型数据库,能够简单地将不同类型、不同格式的档案数据装入数据库或映射到数据库。

3、文档型数据库存储

《规范》提出,文档型数据库的存储对象是内容数据和元数据(含目录数据)。内容数据是电子档案和传统载体档案数字化副本的固有信息。存储方式之一是将内容数据和元数据全部装入数据库,按照与元数据的匹配关联关系,内容数据存储在二进制字段中,不是挂接在数据库上;多种格式的内容数据可装入同一数据库,不同记录(行)的内容数据的格式可不同;同一条记录可存储一个或多个内容数据,同一条记录(行)中多个内容数据的格式可不同,这些是文档型数据库存储内容数据的显著特点,也是《规范》制定的重点之一。关系型数据库的优势在于能够很好地管理和存储结构化数据。鉴于关系型数据库和文档型数据库各自的特点和优势,档案部门可以将文档型数据库、关系型数据库共同作为档案数据存储和管理的工具。

4、文档型数据库的拆分与合并

当内容数据全部载入数据库,数据库会迅速变大。当数据库容量超过备份介质容量时,就难于对数据库整体进行备份,需要将数据库拆分成若干个小容量的数据库才能进行备份,数据库拆分是《规范》制定的另一个重点。《规范》给出了文档型数据库拆分的确切定义:一个数据库被分成若干个数据完整的子数据库。数据库拆分的方法是以数据库中的记录为单位进行拆分,通过数据库中的记录号、记录的容量或检索和统计分析从原数据库中提取相应的记录,按顺序将记录导入各子数据库。每一条记录是一组完整的相关信息,包括内容数据及元数据,保证子数据库中各记录的关联数据完整。数据库拆分可以部分拆分,数据库拆分生成的子数据库结构与原数据库结构可以不同。

数据库合并是数据库拆分的逆操作,是若干个子数据库合成一个数据完整的数据库。数据库合并的方法是以子数据库中的记录为单位进行合并,通过各子数据库中的记录号、记录容量或检索和统计分析从各子数据库中提取相应的记录,按顺序将记录导入一个数据库。数据库合并可以合成子数据库中的部分,记录数据库合并形成的数据库结构与子数据库结构可以不同。

5、数据库备份与还原

文档型数据库备份的内容应包括数据库数据、数据库结构和数据库定义文件,应按照数据库结构(字段)备份数据库数据。离线备份是文档型数据库备份的重要方法,是《规范》制定的第三个重点。离线备份的存储介质有磁盘、固态硬盘、光盘等,其存储容量有限。当数据库容量大于备份介质容量时,需要将数据库拆分成容量小于备份介质容量的若干个子数据库,每个子数据库结构与原数据库结构相同,且保证各子数据库中记录的关联数据完整,然后将各子数据库分别备份到备份介质上。采用这种拆分备份数据库的方法,可以直接在子数据库中完成该记录范围的数据检索和查询,不需要对同一记录的不同字段数据在各子数据库间进行数据检索,保持了各子数据库的数据完整性。同时,保留原有的访问控制策略,保证了原数据库的完整性。当数据库的容量小于备份介质的容量时,无需对文档型数据库做任何处理,直接对数据库整体进行复制备份即可。

针对数据库拆分备份的数据库还原,《规范》提出合并还原的方法:(1)在新建数据库系统合并全部子数据库数据,然后将合并形成的数据库数据还原到原数据库系统。(2)在原数据库系统中合并还原全部子数据库数据。

6、检索与统计分析

随着信息技术的发展和档案数据利用的需要,利用检索和统计分析从数据库中提取相应的记录进行数据库拆分和数据库合并,《规范》提出2个资料性附录:检索和统计分析。

(1)检索

检索的内容包括:中文自动分词与中文分词词典、索引、检索。为提高文档型数据库中档案数据的查准率和检索速度,实现对中文内容的统计分析,应对内容数据和元数据的中文信息进行中文自动分词,并根据不同的档案门类编写相应的中文分词词典。中文分词词典是词的集合,中文自动分词是一种基于规则和词典并能够自动进行分词的方法。规则教系统如何读数据,词典告诉系统所读数据是不是一个单词。在档案数据装入数据库时自动调用分词程序,在入库的同时扫描入库字串,将其切分成供查找和统计分析应用的中文单词。

随着《纸质档案数字复制件光学字符识别(OCR)工作规范》的发布实施以及电子档案管理日渐成熟,为档案数据全文检索奠定了基础。全文索引是档案数据快速检索的有效手段。内容数据装入数据库时抽取的文字信息存储在文本字段,对文本字段每个字、词、词茎进行全文索引。

中文词汇中有许多同义词,典型的例子是政府部门大多有现用名称、多个曾用名称和简称,如果用其中一个名称作为检索词查找,会严重影响档案数据的查全率;如果用全部名称和简称作为检索词查找,需要采用逻辑“或”,即设置多个检索条件进行检索,这会影响检索效率。为保障档案数据的查全率、查准率,提高检索质量和检索效率,词表检索是强有力的手段。词表检索是用词表库中的词及词之间的逻辑关系对数据库中的文字信息进行检索。逻辑关系包括:主词(控制词)、同义词、广义词、狭义词和相关词,它们既可以是中文的词,也可以是其他语种的词。政府部门的现用名、曾用名称和简称属于同义词,如果用其中一个名称作为检索词查找,会用全部同义词进行查找。

(2)统计分析

档案数据的统计分析对象是内容数据和元数据的文字信息,能够按照字段类型进行统计分析。字符串字段统计分析是对整个字段内容和字段中的词汇(包括词、单字、数字等)分别进行统计分析,例如:对归档部门、题名、发文单位、责任者进行统计分析,获得归档部门、题名、发文单位、责任者的数量和分布。文本字段统计分析是对文本字段中的词汇进行统计分析,给出不同词汇出现的频度和记录数,例如:统计分析不同年份或不同时期国家档案局优秀科技成果材料中不同词汇出现的频度。

《规范》确定采用文档型非关系型数据库存储和管理档案数据的技术要求、基本功能和实施方法具有很强的技术指导性和可操作性,为档案部门优化档案数据存储、推动档案数据科学管理提供了有力支撑。同时,《规范》填补了相关标准的空白,对顺应在线政务服务的趋势、主动对接政府数字化转型、实现单套制归档单轨制管理目标具有重要的现实意义。

 

文章来源:《中国档案》2020年第7期   如有侵权请立即与我们联系,我们将第一时间处理

光典信息发展有限公司(上海信联信息发展股份有限公司旗下企业)

法律公告 | 隐私声明 | 联系我们Copyright © 2021. www.aesinfo.cn.All Rights Reserved.

沪公网安备 31010702007084号沪ICP备2021003609号-7

联系信息

光典信息发展有限公司

  • 客服电话:

    4007200100

  • 在线QQ:

    4007200100

  • 网      站:

    www.aesinfo.cn

  • 邮      箱:

    aes@cesgroup.com.cn

  • 地       址:

    上海市普陀区中江路879号天地软件园11号楼

  • 公众号

感谢您的支持,请准确填写以下资料,客服人员尽快为您提供服务。 也可直接联系在线客服,谢谢。

  • *姓      名
  • *手机号码
  • *手机验证
  • *邮      箱
  • *企业名称
申请试用
我同意接受光典信息发展隐私说明

法律公告

本网站由光典信息发展有限公司设立,在您进入、浏览和使用本网站之前,请您仔细阅读本法律声明,如果您继续进入本网站,即意味着您已阅读、理解并同意接受本声明约束,并遵守所有适用的法律和法规之规定。如果您不接受本法律声明,请不要使用本网站。

版权声明

本网站提供的任何内容(包括但不限于数据、文字、图表、图像、声音或录像等)的版权均属于光典信息发展有限公司或相关权利人,未经光典信息发展有限公司或相关权利人事先的正式书面许可,不得以任何方式修改、复制、公开展示、公布或分发,或以其他方式进行使用,不论用于任何商业或非商业目的。任何未经授权使用本网站的行为都将违反《中华人民共和国著作权法》和其他法律法规的规定。

商标与域名声明

光典信息发展有限公司网站(www.aesinfo.cn)使用的所有商标,未经光典信息发展有限公司或相关权利人书面授权,任何组织、单位或个人不得以任何方式使用。

www.aesinfo.cn域名为光典信息发展有限公司所有。未经光典信息发展有限公司书面授权,任何组织、单位或个人不得以任何方式使用。

指向本网站的链接

如希望作指向到本网站的链接,请联络我们;在获得光典信息发展有限公司的书面许可后,方可链接本网站。光典信息发展有限公司认为不再合适链接时,有权随时取消对链接的许可。

其他网站的链接

本网站中所链接的光典信息发展有限公司以外的网站,不在光典信息发展有限公司的管理之下,也不对其站点上的内容和信息承担任何责任。通过光典信息发展有限公司网站访问其他链接网站而发生的任何风险和损害,光典信息发展有限公司不承担任何责任。访问链接网站时,请遵循其链接网站的使用条款及相关法律法规的规定。

光典信息发展有限公司仅为方便您访问而提供他方网站的链接,并非是对链接网站的使用及其登载商品/服务等进行推举,并不意味着光典信息发展有限公司与所链接网站的公司、个人之间有着联合、协作或者合作等特殊关系,也并不表示光典信息发展有限公司认可或承担其他网站的内容或使用上的责任。

其他免责声明

光典信息发展有限公司不保证本网站上任何内容的准确性、及时性、完整性和可靠性以及使用这些内容可能得出的任何结果。另外,光典信息发展有限公司有权在不事先对外通知的情况下,根据自己的判断对本网站内容进行追加、变更、改正、删除、中断/中止登载等。无论任何情况,因本网站内容或对其进行的追加、变更、改正、删除、登载的中断/中止等给用户带来的任何损失,光典信息发展有限公司均不承担任何责任。

光典信息发展有限公司对本网站和其内容的不能使用和使用错误不承担任何责任。

任何情况下,光典信息发展有限公司对于进入或使用本网站引起的任何依赖本网站内容而做出的决定或采取的行动不承担任何责任,对进入或使用本网站而产生的任何损失,包括但不限于业务中断、数据丢失或利润损失均不承担任何责任。

光典信息发展有限公司对于在进入、浏览和使用本网站或从本网站下载任何内容而导致病毒或其他程序对您的电脑系统以及其他任何软件、硬件、IT系统或其他财产的损害或损失不承担任何责任。

当政府司法机关依照法定程序要求本网站披露用户资料时,我们将根据执法单位之要求或为公共安全之目的提供用户资料。在此情况下之任何披露,光典信息发展有限公司均得免责。

任何由于黑客攻击、计算机病毒侵入或发作、因政府管制而造成的暂时性关闭、与本网站链接的其它网站等非光典信息发展有限公司原因造成的用户资料泄露、丢失、被盗用或被窜改等情况或导致的任何法律争议和后果,光典信息发展有限公司均得免责。

若因线路及非光典信息发展有限公司控制范围外的软、硬件故障或其它不可抗力而导致本网站暂停服务,于暂停服务期间造成的一切不便与损失,光典信息发展有限公司不负任何责任。

法律适用和管辖

任何有关本网站和网站声明的争议、纠纷,均适用中华人民共和国法律。任何有关本网站和网站声明的争议,双方协商解决。如协商不成时,您同意由本公司法定地址所在地的人民法院作出裁决。

隐私声明

我方,光典信息发展有限公司,于本隐私声明中陈述我方如何收集和使用来自本隐私声明关联的我方网站及移动网站(以下统称“网站”)的访客个人数据。除非我方书面明确声明本隐私声明同样适用,否则本隐私声明不适用于我方自其他渠道收集的信息,如通过离线或已售产品获得的信息。

主动提交的数据

若您给我们打电话、向我们发送邮件或在我们任一网站上填写表格,您对所提供信息是知情的,因为此类信息须由您主动提交给我们。我们使用此类信息来回应您的请求或与您另行沟通或提供协助。若您通过我们网站进行消费,我们将收集处理您订单的所需信息,如配送地址、所订购产品以及联系信息

被动提供的数据

您访问我们的网站时,您将自动提供来自及有关您的计算机或移动设备的特定信息,包括您在本网站的行为、您使用的硬件和软件类型(如操作系统或浏览器)、cookies 中储存的信息、IP 地址、访问时间、来源网页、您浏览网页所处的地区以及您访问的网页(如适用)。我们在网站上使用跟踪技术(包括“cookies”),以提供个性化浏览和改善网站体验。我们通过此类信息更好地了解网站访客、客户的兴趣并改善我们的网站、服务和产品。我们目前并不回应网页浏览器的“不跟踪”信息。

数据共享

我们不会出租、出售或以其他方式分享个人资料,除非:

我们可能会披露您的个人信息,以 (a) 遵守相关法律、监管要求以及回应合法请求、法庭命令和法律程序;(b) 保护和捍卫我方或第三方的权利或财产,包括执行协议、政策和使用条款;(c) 在紧急情况下,包括保护我方雇员或任何人员的安全;或 (d) 关联调查或防止欺诈事件。 我们可能以涉及销售或转让全部或部分业务或资产的商业交易(或商业交易谈判)目的分享您的个人资料。此类交易可包括任何合并、融资、收购或破产交易或诉讼。 在您的同意下。

我们还可自由使用和分享经汇总和编辑的无法用于识别您个人身份的信息。

数据安全

我们使用 SSL 证书、数据访问限制、防病毒软件和防火墙降低未经授权访问个人数据的风险。但通过互联网或任何无线网络传输的数据无法保证完全安全所以当您将个人信息提交给我们时,请了解安全风险。

隐私政策的变更

我们可能会不时更改此隐私政策。隐私政策的任何更改都会在此页面上发布。如果更改的内容十分重要,我们将通过在服务主页或登录屏幕上添加通知或者向您发送电子邮件的方式通知您。我们也会将此隐私政策的先前版本保留在档案中供您查看。我们鼓励您在使用服务时了解我们的隐私政策,随时了解我们的信息能够帮助您更好地保护隐私。如果您不同意本隐私政策的任何更改,您需要停止使用服务并停用您的账户。

联系我们

如果您对本隐私政策有任何疑问、意见或建议,请通过以下方式与我们联系:

邮箱:aes@cesgroup.com.cn

地址:上海市普陀区中江路879弄11号楼

邮编:200333

客服电话:4007200100

一般情况下,我们将在三十天内回复。

本隐私政策的订立、履行和解释均适用中国法律。如果您对我们的回复不满意,特别是当我们的个人信息处理行为损害了您的合法权益,您可以申请仲裁的方式寻求解决方案。当您使用我们的服务,即意味着您已经同意本隐私政策所示之法律管辖及争议解决方式的有关约定。

立即咨询稍后联系