档案的数字化过程是怎样的?

一.术语和定义

1,数字化

通过计算机技术将模拟信号转换成数字信号的过程。

2.纸质文件的数字化

利用扫描仪或数码相机等数字设备对纸质文件进行数字化处理,并转换成存储在磁带、磁盘、光盘等载体上的计算机可识别的数字图像或数字文本的过程。

3.数字图像

表示物理图像的整数数组。由相同维度的连续图像生成的二维或更高维的采样和量化函数。对矩阵(或其他)网络上的连续函数进行采样,并最小化采样点处的值。

4.黑白二值图像

只有黑白灰度的数字图像。对应的是黑白的文字草稿,线条画等等。

5、连续色调静止图像

由两个以上灰度级或不同颜色通道的不同阴影组成的静态数字图像。在纸质文件的数字化过程中,通常有两种模式:灰度扫描和彩色扫描。

6.解决

每单位长度的图像中包含的点数或像素数通常用每英寸点数(dpi)来表示。

7.变形

数字转换后,数字图像与原始文件在颜色和几何形状上的偏差程度。

8、可懂度

数字图像向人或机器提供信息的能力。

9.图像压缩

去除图像冗余或图像近似的任何过程,其目的是以更紧凑的形式表示图像。

二、数字化纸质档案的基本要求

1,基本原则

纸质档案数字化的基本原则是使档案信息资源能够准确、方便、快捷地获得,共享可以公开的档案信息资源,以满足社会对档案利用的需求。

2.确定数字对象的原则。

要数字化的对象要按照一定的原则和方法进行确认,只有符合一定要求的纸质档案才能进行数字化。

1)符合国家法律法规的原则。

纸质档案的数字化必须符合国家关于档案开放的规定及相关规定。

2)价值原则

属于归档范围,应永久或长期保存,具有较高社会利用价值的档案,可纳入数字化处理范围。

3.基本链接

纸质档案数字化的基本环节主要包括:档案整理、编目建立、档案扫描、图像处理、图像存储、数据质量检查、数据挂钩、数据验收、数据备份、成果管理等。

4.进程管理

1)要加强纸质档案数字化各个环节的安全保密管理机制,确保原始档案和数字化档案信息的安全。

2)纸质档案数字化的各个环节都要详细登记,及时整理汇总,装订成册,在完成数字化工作的同时建立完整规范的记录。

第三,文件整理

扫描前,应根据档案管理情况,按以下步骤对档案进行妥善整理,并根据需要进行标记,以保证档案的数字化质量。

1目录数据准备

2拆除捆绑

3区分扫描和非扫描零件

4页裁切

5备案和登记

6装订

第四,文件扫描

1,扫描模式

1)根据文件格式的大小(A4、A3、A0等。),选择相应规格的扫描仪或专业扫描仪(如工程图纸可使用0号图纸扫描仪)进行扫描。大幅面文件可以用大幅面数字平台扫描,或者缩微后用胶片数字转换设备扫描,也可以用小幅面扫描后的图像拼接处理。

2)纸张状况不佳,太薄、太软或太厚的文件要用平板扫描;纸质条件好的文件可以高速扫描,提高工作效率。

2.扫描颜色模式

1)扫描颜色模式一般包括黑白二进制、灰度、彩色等。通常使用黑白二进制值。

2)黑白页面、字迹清晰无插图的文件,可以黑白二进制模式扫描。

3)黑白页面,但字迹清晰度或插图较差的文件,多色页面的文件可以用灰色模式扫描。

4)页面上有红头文件、印章或黑白照片、彩色照片、彩色插图的文件,可根据需要进行彩色模式扫描。

3.扫描分辨率

1)扫描分辨率参数的选择以扫描图像清晰完整,不影响图像的利用效果为前提。

2)黑白二进制、灰度、彩色模式扫描文件时,分辨率一般建议≥100dpi。特殊情况下,如文字小、文字密、清晰度差等。,分辨率可以适当提高。

3)对于需要OCR汉字识别的文件,扫描分辨率建议选择≥200dpi。

4.扫描注册

认真填写纸质文件数字化转换过程交接登记表,登记扫描页数,核对各文件实际扫描页数与文件整理量中填写的文件页数是否一致。如不一致,应注明具体原因和处理方法。

动词 (verb的缩写)图像处理

1,影像数据质量检查

1)检查图像的偏斜度、清晰度和失真程度。如果发现不符合图像质量的要求,就要对图像进行重新处理。

2)如果扫描的图像文件不完整或因操作不当无法清晰识别,应重新扫描。

3)如有漏扫描文件,及时补扫描,正确插入图像。

4)如发现扫描图像的排列顺序与原文件不一致,应及时调整。

5)认真填写相关表格,记录质量检查结果和处理意见。

2.改正,矫正;[化工] 精馏;[电] 整流;[数] 求长

应该对偏转图像进行校正,以实现偏转的基本视觉感知。方向不正确的图片要旋转还原,符合阅读习惯。

3.净化

黑点、黑线、黑框、黑边等杂质。图像页面中影响图像质量的杂质应去除。在处理过程中,应遵循在不影响可理解性的前提下展现文件原貌的原则。

4.图像拼接

扫描不同区域的大幅面文件形成的多幅图像应拼接合并成一幅完整的图像,以保证文件数字图像的完整性。

5、切边处理

彩色模式下扫描的图像应进行修剪,去除多余的白边,以有效减少图像文件的容量,节省存储空间。

第六,图像存储

1,存储格式

以黑白二进制模式扫描的1)图像文件通常以TIFF(G4)格式存储。以灰色模式和彩色模式扫描的文件通常以JPEG格式存储。存储时压缩比的选择应以保证扫描图像的易读性和最小化存储容量为前提。

2)提供网络查询的扫描图像,也可以保存为CEB、PDF或其他格式。

2.图像文件的命名

1)纸质文件目录数据库中的每一份文件都有一个唯一的文件号与之对应,该文件的扫描图像文件就是以这个文件号命名的。

2)多页文件可以用这个文件号建立相应的文件夹,图像文件可以按页码顺序命名。

七、目录数据库。

1,数据格式选择

编目数据库建设应选择通用数据格式。选择的数据格式应该能够通过XML文档直接或间接交换数据。

2、文件描述

根据《档案著录规则》(DA/T18)的要求,建立了档案目录数据库。

3、目录数据质量检查

通过人工校对或软件自动校对检查目录数据库的质量。检查描述项目是否完整,描述内容是否规范准确。如果发现不合格的数据,应修改或重新记录。

八、数据挂钩

1,汇总挂钩

档案数字化转换过程中形成的目录数据库和影像数据库,通过质量检查确认“合格”,然后通过网络及时加载到数据服务器进行汇总。通过编程或借助相应的软件,可以实现目录数据自动查找相关数字图像,添加相应的电子地址信息,实现批量、快速挂钩。

2.数据关联

基于纸质文件目录数据库,从每个纸质文件扫描的一个或多个图像被存储为图像文件。在相应文件夹中存储图像文件时,需要仔细检查每个图像文件的名称是否与归档目录数据库中的文件号相同,图像文件的页数是否与归档目录数据库中的文件页数相同,图像文件的总数是否与归档目录数据库中的文件数相同。通过每个图像文件的文件名与该文件在归档目录数据库中的文件号的一致性和唯一性,建立一一对应的关系,为归档目录数据库与图像文件的批量连接提供了条件。

3.认真填写纸质文件数字化转换过程交接登记表,记录数据关联后的页数,检查每次文件关联后的页数与文件整理扫描时填写的页数是否一致。如不一致,应注明具体原因和处理方法。

九、资料验收

1,数据采样

1)检查所有已经采样数字化的数据,包括目录数据库、影像文件、数据钩子的整体质量。

2)对于全宗文件,数据验收时的抽样率不得低于5%。

2、验收指标

1)当目录数据库与图像文件有错误码链接,或者目录数据库与图像文件中有一个存在不完整、不清晰、错误等质量问题时,抽检标记为“不合格”。

2)全宗文件数字化转换质量抽样检查合格率达到95%以上(含95%)时,视为“通过”。

合格率:通过抽样检验的单据数/抽样检验单据总数×100%。

3.验收审查

“通过”验收的结论必须经分管领导审核签字后方能生效。

4.验收登记

认真填写纸质档案数字化验收登记表。

X.数据备份

1,备份范围

完整、合格的数据应及时备份。

2.备份方法

为保证数据安全,备份载体的选择应多样化,可采用线上线下相结合的方式实现多套备份,并注意远程存储。

3.数据检查

还应该检查备份数据。备份数据的检查主要包括备份数据是否可以打开,数据信息是否完整,文件数量是否准确。

4.备份标签

数据备份后,对应的备份介质应进行标记,以便于查找和管理。

5.备份注册

填写纸质文件数字备份管理登记表。

XI。数字成果管理

1.应加强纸质档案数字化成果的管理,确保其安全性、完整性和长期可用性。

2.提供纸质档案数字化成果在线检索利用时,应提供制作单位的电子标识,根据具体情况分别采用可下载或不可下载的数据格式。

javascript" src="../css/tongji.js">