太原是我国山西省的省会城市和重要的工业、文化中心,拥有丰富的历史档案资源和庞大的现代档案体系。在此背景下,为了更好地存储档案资源,太原积极开展档案数字化扫描工作。档案数字化即对传统档案进行扫描,将其转换为数字化档案的过程。
在太原档案数字化服务开展过程中,扫描完毕后应及时进行图像数据质量检查,发现图像不符合质量要求时,应重新进行处理。发现扫描、格式转换有问题时,应及时整改。对扫描或转换后图像质量不理想的,应对相应参数进行调整,如亮度、对比度、饱和度、色阶、色彩平衡等,调整所选择的参数类型和数值,以调整后的图像不失真、效果最清晰完整为准。
图像处理是档案数字化加工中是非常重要的一个环节,它是对图像的优化,使得图像能更加方便档案管理人员查阅。
太远档案数字化服务图像处理需要解决的问题包括:
有的档案因保存时间较长,纸底颜色已发黄,将档案扫描照片局部放大后发现空白部分并非纯色,而是含有黑、灰、红、蓝、黄、绿等多种颜色的组合,这些多余的颜色实际上是扫描过程中产生的噪点。图像放大后,整个数据曲线都呈现出深浅不一、粗细不均的色泽,同时也出现了少量的非蓝色像素点。
扫描过程中产生的图像噪点,从图像分析应用的角度来说,这些无效信息应该被剔除。而对图像内容进行替换,实际上是对图像中有效信息的强化,使存档图像变得更清晰易读,因为图像从24位彩色转变为8位彩色,经过优化后,图像的存储空间也相应地减小了,在提高图片质量的同时还大大节约了存储空间。优化后,数据记录由不同颜色、不同线条变为均匀、固定颜色,与背景色、表格色区别明显,可以直接通过RGB值自动识别提取数据曲线。
优化成果前后对比:
优化后的图像比原始图像更加美观清晰,背景无噪声,图像内容更加突出。通过局部放大发现优化前后的差异主要体现在三点:
1、空白部分变成了纯色,图像空白部分斑驳的“雪花点”已经消失;
2、原本深浅不一的数据记录变成了深浅一致的颜色,变得更加突出,易于识别。
3、原图片需要大量存储空间,处理后可节约空间,经过图像修改和优化,从而得到清晰易读的档案图像,优化后的图像不仅清晰度提高,而且减少了一半以上的体积。
图像处理对档案数字化加工的重要性:
目前,扫描文件存在图像歪斜、污损、褪色、模糊、字迹不清晰等问题,不符合文件归档和服务的要求,也不利于业务应用。尤其是图像的提取难度更大,数值提取的精度也难以保证。而档案数字化加工是需要保证档案的质量,出现这些问题严重的影响了质量,而使用图像优化就让上述情况得到良好的解决。
太原档案数字化服务图像处理的操作具体包括:
将扫描图像与档案原件进行对照,如图像模糊,应当重扫。对有偏斜等问题的图像,应采用计算机自动处理或人工处理方式进行优化。
纠偏:对出现偏斜(如图像倾斜度大于1度) 的图像应进行纠偏处理(也可批量纠偏),以达到视觉上基本不感觉偏斜为准。对方向不正确、不符合阅读习惯的数字图像应进行旋转还原。
去污:对图像页面中出现影响图像质量的杂质,如在扫描过程中产生的黑点、黑线、黑框、黑边等应进行去污处理,以底色填充。对原件边上有遮字的图像要放出白边。在处理过程中,应遵循展现档案原貌的原则,处理过程中不得去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等痕迹。
图像拼接:对大幅面纸质档案进行分幅扫描时,相邻图像之间应留有足够的重叠,并且建议采用标板、标尺等方式明确说明分幅方法、起止页、原件大小等信息;分幅扫描形成的多幅数字图像,后期可通过应用软件自动拼接的方式进行拼接处理,合并为一个完整的图像。
裁边处理:采用白色做底色的彩色模式扫描的图像,应进行拉框或裁边处理,去除多余的白边,以有效缩小图像文件的容量,节省存储空间。
图像优化:对字迹褪变的文件,在扫描后应该采用图像处理技术,调整亮度和对比度,使字迹变得清晰。
OCR:采用OCR技术进行字符识别,将以图像方式表达的文字信息,转换成以字符方式表达的文字信息。