关于档案数字化新闻
数字化信息采集技术的发展应该蛮有前景的,对文物这块的帮助影响也挺大,我最近看到一则新华社的新闻,介绍了专业技术团队在山西省大同市的云冈石窟第17窟进行数字化信息采集工作的情况,工作人员利用三维激光扫描和近景摄影测量等技术手段,对石窟信息进行全面采集,建立数字档案,这为石窟今后的保护、研究以及文化产业发展奠定了基础。近年来,专门负责云冈石窟保护、研究与管理工作的云冈研究院积极探索石窟信息永久保存和永续利用的科研路径,通过成立“云冈数字中心”,组建专业技术团队开展数字化信息采集。如果你想在专业平台了解最新的数字化信息采集技术,11月18日-21日在西安国际会展中心举办的中国西部文化产业博览会就是一个不错的选择,我也去官网看了下,今年展会设置有数字文化馆、文化+数字展区等,绝对值得去现场参观了解,想去的话可以到官网进行预登记报名了!望百度采纳 。
未来档案数字化发展是什么样的
未来档案数字化发展
随着高校图书馆信息化水平的不断提高,图书馆馆藏资源的载体形式发生了很大变化。目前,图书馆正通过将馆藏资源转化为数字数据,利用电子载体作为统一处理和存储的媒介,向信息数字化和数字化全面发展。光盘、硬盘、u盘等电子载体以其巨大的存储容量和优异的存取速度,正在迅速取代传统的纸质媒体,成为高校图书馆馆藏资源的主流信息载体。此外,除了高校图书馆自身馆藏资源的信息化外,还有大量电子出版物和电子数据的引入。这些以电子载体为存储媒介的数字信息将成为未来高校图书馆馆藏资源的主要组成部分。
档案是一种重要的特殊资源,不可再生。一旦损坏,将给国家和单位带来非常严重的损失。近年来,随着自然灾害的频繁发生,档案的安全保管受到了极大的关注。
随着文件保护技术的不断发展,文件的异构备份技术越来越成熟。在当前的技术条件下,它被认为是实现文件长期安全保存的最可靠手段。
国家档案局明确提出,重点要从根本上加强安全保障能力建设,全面完善档案安全体系,确保档案的安全和保密。重要文件远程备份的实现。对于所有多组文件或文件副本,至少一组必须存储在不同的位置。对于重要的电子文件,不仅要进行同构备份,还要进行异构备份,并及时转换成缩微胶片或纸质文件,以保证其长期可读性。
在档案数字化加工技术高度发展的时代,缩微技术与数字技术(即数模集成技术)紧密结合,将数字技术的优势(即数字传输的快速性、逻辑性和便捷性)与缩微技术的安全性、可靠性、持久性、真实性和经济性结合起来,并将其纳入现代信息管理的技术轨道。目前,我们正处于信息爆炸的时代。以物联网、互联网大数据、智能和云计算为标志的网络正充斥着社会生活和生产的每一个角落。在我国,档案的产生和发展经历了一个从低级到高级、从简单到复杂的发展过程。随着时代的发展,现代档案馆的建设也对未来的档案馆建设提出了明确的要求,即向更高层次的绿色、智能化、智能化档案馆迈进。
档案数字化加工是传统档案馆的“升级版”,智能档案馆是数字档案馆的“升级版”,或处于更高的层次和阶段。智能档案馆是数字档案馆发展的必然结果。总体而言,我们正在建设智慧城市,智慧档案馆的全方位服务功能凸显,体现了智慧档案馆的“记忆中心”功能,为党和政府的决策提供参考。
作为传统档案馆和数字档案馆建设的更高层次和阶段,智能档案馆概念的确立及其实际建设迫在眉睫。智慧档案有狭义和广义两个概念。狭义的智慧档案是指档案建设的各个方面,包括传统档案、新档案内容信息和多元化档案资源中的载体信息。广义而言,智能档案是指涉及所有信息的档案,以及所有数字化的档案
从档案馆的建设范畴来看,绿色档案馆的建设涵盖的领域更多,不仅包括智能档案馆的软硬件设施建设,还包括绿色建筑的研究范畴。随着生态可持续发展理念的提出和发展,绿色档案馆建设已成为未来发展的方向。绿色档案馆建设的理念产生于20世纪80年代,遵循生态环境保护、节能降耗、可持续发展、坚固耐用、安全可靠、协调高效的理念。它的目标就像智能档案馆的建设一样,是对档案工作高效发展的有力支持。最大限度地发挥档案本身的作用;最终目标是实现档案的最大社会价值。最大限度地发挥档案馆的服务功能等。从发展目标来看,它们都是加强档案存储、档案信息资源开发、文化传播、社会服务等全方位功能的档案信息资源中心。这里,社会服务功能是影响档案价值的一个重要因素。
什么叫档案数字化,档案数字化有哪些好处?
1、您好,很高兴回答你的这个问题;
2、档案数字化是随着计算机技术、扫描技术、OCR技术、数字摄影技术(录音、录像)、数据库技术、多媒体技术、存储技术的发展而产生的一种新型档案信息形态,它把各种载体的档案资源转化为数字化的档案信息,以数字化的形式存储,网络化的形式互相连接,利用计算机系统进行管理,形成一个有序结构的档案信息库,及时提供利用,实现资源共享;
3、档案数字化是数字档案建设*基础的工作,传统载体的档案经高科技技术加工成数字档案形式,通过局域网、政务网、互联网进行计算机检索、阅读电子档案,为迎接档案信息服务新环境的挑战,提高管理水平、提高效率,增强档案业务部门的服务水平,为档案内部管理及面向客户服务提供高效率的全面服务;
4、档案工作的数字化建设是顺应潮流、适应时代发展的新举措、新要求。档案作为一种原生信息资源,其重要性正日益凸显出来,逐步掌握信息技术为档案工作服务,为社会主义经济建设服务,为社会主义精神文明建设服务。
电子发票是什么?
查了很多相关资料,电子发票和纸质发票一样具有法律效应,电子发票普及后,如何报销入账归档?将是所有企业财务必须要面对的问题,这就必须的提一提电子会计档案系统了,也就是数字化档案管理平台。
电子发票是什么?根据百度百科的释义:
电子发票是信息时代的产物,同普通发票一样,采用税务局统一发放的形式给商家使用,发票号码采用全国统一编码,采用统一防伪技术,分配给商家,在电子发票上附有电子税务局的签名机制。
电子发票是什么?国家税务总局湖北省税务局给出的释义:
电子发票是指在购销商品、提供或者接受服务以及从事其他经营活动中,开具、收取的以电子方式存储的收付款凭证。电子发票主要是指增值税电子普通发票和增值税电子专用发票。
关于《国家税务总局河北省税务局关于开展全面数字化的电子发票受票试点工作的公告》的解读
一、开展全面数字化的电子发票试点的背景是什么?
为落实中办、国办印发的《关于进一步深化税收征管改革的意见》要求,全面推进税收征管数字化升级和智能化改造,降低征纳成本,国家税务总局建设了全国统一的电子发票服务平台。2021年12月1日起,国家税务总局在广东省(不含深圳市,下同)、内蒙古自治区和上海市(以下简称“试点地区”)开展了全面数字化的电子发票试点工作,系统运行平稳。
为进一步推进全面数字化的电子发票试点工作,经国家税务总局同意,自2022年7月18日起,河北省纳税人仅作为受票方,接收由试点地区的部分纳税人通过电子发票服务平台开具的发票。
二、全电发票的票面信息包括哪些?
全电发票的票面信息包括基本内容和特定内容。
基本内容主要包括:二维码、发票号码、开票日期、购买方信息、销售方信息、项目名称、规格型号、单位、数量、单价、金额、税率/征收率、税额、合计、价税合计(大写、小写)、备注、开票人。全电发票的发票号码为20位,其中:第1-2位代表公历年度后两位,第3-4位代表各省、自治区、直辖市和计划单列市行政区划代码,第5位代表全电发票开具渠道等信息,第6-20位代表顺序编码等信息。
为了满足从事特定行业、发生特殊应税行为及特定应用场景业务(以下简称“特定业务”)的纳税人开具发票的个性化需求,税务机关根据现行发票开具的有关规定和特定业务的场景,在全电发票中设计了相应的特定内容。特定业务包括但不限于:稀土、建筑服务、旅客运输服务、货物运输服务、不动产销售、不动产经营租赁服务、农产品收购、光伏收购、代收车船税、自产农产品销售、差额征税等。河北省纳税人在取得全电发票时,按照实际业务开展情况,可向开票人提出特定业务需求,开票人将按规定填写在发票备注等栏次的信息填写在特定内容栏次,进一步规范发票票面内容,便利河北省纳税人使用。特定业务的全电发票票面按照特定内容展示相应信息,同时票面左上角展示该业务类型的字样。
三、使用全电发票具备哪些优点?
(一)用票更便捷
发票数据应用更丰富。便于税务机关进行发票数据的规范化管理,为向纳税人提供税费申报预填服务奠定数据基础。
发票使用满足个性业务需求。全电发票破除特定版式要求,增加了XML的数据电文格式便利交付,同时保留PDF、OFD等格式,降低发票使用成本,提升纳税人用票的便利度和获得感。全电发票样式根据不同业务进行差异化展示,为纳税人提供更优质的个性化服务。
(二)入账归档一体化
税务机关将制发电子发票数据规范、出台电子发票国家标准,实现全电发票全流程数字化流转,进一步推进企业和行政事业单位会计核算、财务管理信息化。
扩展资料:
财务走进智能数据化时代,“全电发票”、“报销入账归档”、“无纸化办公”与“金税四期”一道,毫无疑问成了今年的热词。2012年起,我国不断出台政策推动电子发票及电子会计档案,2020年更是连续出台《关于规范电子会计凭证报销入账归档的通知》,全电发票试点力度不断升级,发票数字化、无纸化是大势所趋。
企业数字化财务系统建设发展进入快车道,电子会计档案成为企业财务数字化转型的重要一环。为更好助力企业迎接发票数字化、无纸化,胜意科技推出数字化档案管理平台,实现从自动采集、存储归档、查看调阅、档案移交的档案全生命周期管理,助力企事业单位高效合规管理电子会计档案,推进档案数字化转型,加强财务精益管理,实现降本增效。
01电子发票普及后,企业要面对很多问题?
税务无纸化、办公无纸化概念的稳步推行,对增值税专用发票、增值税普通发票、火车票、打车票等纸质发票业务凭证实现数字化管理,成为企业防范发票管理风险,提升管理水平的“必选项”。
然而很多企业还面临着以下痛点:
首先,纸电发票并存期,发票管理难度大,手工收集整理效率低下,易出错;
其次,电子发票归档工作繁杂,效率低,电子档案与纸质档案管理脱节,纸质档案保管成本高,不规范现象比比皆是;
最后,数据分散而封闭,缺少汇总统计分析,难以融入业务和数据共享。查找不便,借阅周期长,效率低下。缺乏加密、备份等管控机制,保证档案数据安全防篡改。
因此,建设电子会计档案系统,实现档案工作的高质量发展,不仅要符合政策合规性要求,支持电子发票从采集、报销、入账、保管、借阅、统计、利用等全生命周期管理,同时也要解决档案安全存储难题,为企业全面实现财务数字化管理、合规化闭环管理奠定基础。
数字化档案管理平台,以档案全生命周期管理为核心,支持档案收集、整理、鉴定、保管、借阅、统计、利用等全过程,构建一个全程信息化、“应归尽归”、安全合规的数字化档案管理系统,能满足各类企事业单位不同管理阶段需求,提供电子档案管理、纸质档案管理和纸电混合管理的数字档案解决方案,既兼容当前,也面向未来。
档案采集
档案采集:与各大业务、财务、税务系统打通,单据流程结束后,自动将单据信息、电子发票、合同、银行回单等资料推送至档案系统,完成档案资料的自动采集。对于纸质资料,费控云支持通过扫码、拍照识别、相册导入、支付宝卡包等8多种方式采集,并通过OCR智能识别技术,自动提取结构化数据,实现数字化采集;
档案归档
档案归档:建立自动归档机制,在业务流程完成后以业务类型为线条,将当前业务类型对应的相关单据、票据、合同、银行回执单、凭证及附件按凭证入账时间,创建待归档清单。同时启动归档机器人,根据归档清单,对所有资料进行一一归档,达到“应归尽归”的目的,真正实现无纸化办公,提高企业效率;
未来,数字化档案管理平台,帮助企业积极应对会计资料归档难题,助力企业财务管理向智能化、业票财税一体化转型,让更多企业享受到智能化、数字化带来的巨大价值。
参考资料:1.百度百科 电子发票
2.国家税务总局湖北省税务局 电子发票知多少
3.胜意科技新闻 胜意费控云数字化档案管理平台助力企业迎接电子发票无纸化时代
4.国家税务总局河北省税务局 关于《国家税务总局河北省税务局关于开展全面数字化的电子发票受票试点工作的公告》的解读
什么叫档案数字化,档案数字化有哪些好处?
双层PDF在地质资料数字化中的应用
郭慧锦 贾国锋 马飞飞 张茜
(全国地质资料馆)
摘要 本文在描述双层PDF及OCR技术特点及应用前景基础上,探讨了地质资料数字化图文数据双层PDF转换的意义;提出了转换方法的选择,并详细介绍了OCR数字加工系统,以及提高识别率的方法;最后提出了双层PDF在地质资料馆建设中的意义。
关键词 双层PDF OCR识别率
当前,地质资料馆藏机构都在加紧开展数字化工作。截至2013年底,全国已有20多个省级资料馆完成馆藏资料的数字化工作,全国地质资料馆的成果地质资料数字化工作也接近尾声,所形成的海量数据已成为地质资料信息社会化服务重要数据资源。此类数字化数据是静态的,有利于阅览使用,但无法进行全文检索,也不利于进一步分析处理。因此,在现有数据的基础上,开展OCR识别,使之转化成双PDF文件,实现静态向动态的转变,建立全文数据库,完成对地质资料的全文信息的检索,成为地质资料馆藏机构推进资料数字化工作。
1 关于双层 PDF与OCR技术
双层PDF是在扫描数据的基础上通过OCR识别生成的可检索的PDF文件,即上层是原始图像,下层是识别结果,且位置上下一一对应。双层PDF文件不仅可以100%保留原始版面效果,而且支持选择、复制、检索等功能,这样的PDF文件最后可以存储在光盘、硬盘或磁盘阵列中,并通过建立索引数据库进行科学的管理。
OCR(Optical Character Recognition),即光学字符识别,是指电子设备(如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。随着计算机网络飞速发展,信息电子化已经成为一个时代必然趋势。文字作为信息中最重要、最集中的载体,其电子化进程显得尤为重要。而OCR技术则是文字电子化过程中最重要的环节,它改变了传统的纸介质资料输入的概念。通过OCR技术,用户可以将通过摄像机、扫描仪等光学输入方式得到的报刊、书籍、文稿、表格等印刷品的图像信息转化为可以供计算机识别和处理的文本信息。因此,与传统的手工录入方式相比,OCR技术大大提高了人们进行资料存储、检索、加工的效率。
2 应用现状
PDF正在世界各国政府、金融财务、法律、工程技术、医疗等诸多部门获得广泛的应用,并已成为政府、学术部门等单位标准的现代化公文格式规范,所以PDF电子格式文档将是未来档案部门收藏的主体。而双层PDF的出现有效解决了识别成本和阅读利用的矛盾,是一种较有潜力的资源格式。国外的OCR技术应用相对成熟,包括IBM、Motorola、HP和Microsoft等世界性大都陆续展开了这方面的研究,在他们的产品中绑定了OCR技术。
如今,OCR技术在我国的应用也极为广泛。信息检索技术研究,即双层PDF检索技术研究,中国“863”计划在2008年以前已经开始对中文OCR、自动分词、自动摘要、自动搜索、自动定位进行了统一测试评测。在此基础上,国内逐步建立了以数字图书馆、数字档案馆、数字报刊、数字校园网等一系列数字化为基础的实施案例,例如新闻出版总署、外联部、共青团中央等机关文献全文数据库;《中国青年》75年、《新华文摘》20年等期刊全文数据库。国家图书馆早在1999年就成立了“国家图书馆文献数字化中心”,对各类馆藏文献进行数字化加工和OCR识别,在此基础上形成书目型书库、题录型数据库和全文型数据库三大类,逐渐成为我国网上信息资源的中心枢纽。
随着我国信息化建设全面普及,OCR技术的应用前景更加广阔,数字图书馆、数字档案馆、数字资料馆等概念的提出也使OCR在纸质档案数字化过程中越来越发挥其独特的作用,不仅节省了人力物力,更使档案信息资源的利用价值达到最大化,能够更好地服务于民。
3 数字化数据双层PDF转换的意义
3.1 是地质资料信息化建设的重要内容
随着社会信息化程度的提高,人们对信息资源的依赖程度也越来越高,对高效率的档案资源管理、检索利用的需求也越来越迫切。数字化是信息化建设的重要内容,而信息化建设的核心是资源建设。资源建设包括三大任务:一是馆藏纸质资料的扫描数字化与目录数据库建设;二是电子文件的归档与管理;三是全文数据库和全文检索体系建设。根据各资料馆数字化工作进展,考虑到用户的利用需求,若要得到真正文本形态的电子信息,使资料数字化工作更加有效,更加彻底,最大限度拓宽用户利用面,就需要应用OCR技术进行扫描栅格文件的双层PDF转换,进而开展地质资料全文数据库建设和全文检索工作。
3.2 是地质资料实现全文检索与全文数据库建设的前提
实践证明,基于双层PDF文档的全文检索,有效地提高了查询利用效率。它通过对档案数据库的数据和双层PDF文档的Text层建立索引,查询时可以不访问数据库,有效减轻数据库和系统的压力。至少可以支持1000万级的数据,毫秒级的查询时间,每秒上千人的并发访问,从而实现大容量、高速度的目标,并且可以适应Linux和Windows平台,支持多种数据库接口。它具备通用搜索引擎的构架和功能,可以对用户的输入进行分词,可以进行多关键字搜索、关键词组合搜索,用户友好;同时能够根据客户的需求进行用户的数据挖掘,提高档案全文检索系统的价值。
3.3 是现代化数据中心标准化建设的前提
建设现代化的数据中心首先要实现电子文件存储结构标准化,即建立一个通用性强、应用广泛的电子文件信息存储和交换格式。基于PDF格式已经作为电子文件管理中电子文件长期保存格式的最新标准在国际上全面实施,且具有兼容性、原始记录性强,安全控制策略完善等优点,是电子文件长期保存的最佳选择。所以进行馆藏数字化数据PDF转换势在必行。
4 双层PDF转换方法
4.1 目前常见的双层PDF转换方法
目前国内双层PDF的转换技术已经相对成熟,从现有技术条件下来看,大体可分为以下3种:
4.1.1 软件转换
由目前市场上较流行的 Adobe Acrobat、ABBYY FineReader12(中英文识别)、Readiris Corporate 12(英文识别率高)、Foxit Phantom 5(可以单独显示文本层)、清华文通TH-OCR XP8(识别率较高)、汉王文本王5800(版面识别较好,纯中文识别率高)、尚书七号OCR等转换程序,可以经OCR识别处理后直接生成双层PDF文件,速度快,效率高。但识别率和纸质资料原件(如印刷方式、清晰度、纸张质量等)及操作人员技术水平成正比。如果纸质原件质量好,识别率相对就高;质量差,识别率就相对较低。
4.1.2 流程加工
根据相关技术要求,对图像进行全新的OCR识别流程加工处理,重新生成PDF文件,具有文字正确率高、文字定位准确等特点。这种方式相当于全流程化制作双层PDF文件,工作量大,耗时长,费用高。
4.1.3 识别重构
重新生成PDF文件,实现版面字体、字号、颜色的恢复和重构。文字正确率高,页面清晰,但和原版图差异较大,主要在图书方面应用较多。
4.2 地质资料双层PDF转换
全国馆于2011年开始在扫描数字化基础上开展双层PDF的转换试验工作,主要运用第一种方法进行软件转换,即经过软件自动OCR处理后直接形成双层PDF文件。由于地质资料不同于普通的文书档案,纸张样式和印刷方式多样,手写和老旧资料多,地层、数学等特殊符号多等特点,给OCR自动识别带来了困难,单一的软件识别并不能满足全文检索90%以上识别率的要求。
在转换试验基础上我们得到以下结论:
1)地质资料本身多种多样,实际的识别率主要受印刷质量、形成年代等因素影响,老旧资料、纸质质量差的资料识别率普遍较低;受执笔人书写习惯及书写清晰度的影响,手写文档的识别准确率一般在30%以下;油印文档识别准确率一般在50%以下;打印、铅印和胶印文档识别率较高,一般能达90%以上。无论在哪种类型的文档中,标点的识别率都很低,地层和数学符号及其他特殊符号的识别率几乎为零。
2)目前识别技术无法达到100%识别,必须根据实际需求对照纸质档案对初次识别结果进行人工校对才能满足全文检索需求。
3)地质资料扫描文件数量多、容量大,转换速度受计算机反应速度影响,大批量转换和识别需选择高配置计算机,且批量转换和人工识别耗时长,耗人工多,需专项经费支持开展工作。
4.3 OCR数字加工系统的引入与功能简介
经过对目前国内双层PDF转换方法的对比,结合地质资料情况复杂的特点,以及数据测试结果研究,建议地质资料的双层PDF转换主要采用软件识别和流程加工相结合的方法,即采用OCR数字加工系统,可以保证高效率、高质量地完成双层PDF转换。该系统主要包含以下几个主要流程:
图1 OCR数字加工系统示意图
1)图像处理。为提高识别率,对图像进行“消蓝去污”的处理,去掉图像上影响识别率的噪音,如麻点、下划线等,由图像质量控制程序自动监测图像处理质量。
2)版面分析。自动进行版面理解并定位,判别划框区域是横排文本区、竖排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。自动版面分析在后台运行,操作人员可在前台进行确认,必要时对自动版面分析结果加入手工干预。
3)识别。把文字图像转化为计算机文字内码,可以识别印刷体和手写体中文(包括简体字和繁体字)、中英文混排文字、表格,识别出来的文字内码可以是GB码、BIG5码、GBK码或者Unicode码。识别过程在后台运行。
4)纵向校对。具有很强的查错纠错能力,是将一个或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作员发现错误和修改。
5)横向校对。是传统的人工校对方法,操作员直接对比识别结果文本和图像,以发现识别错误文字。系统自动调出文字对应的图像,进行比对。同时,以醒目的颜色标出识别可信度不离的文字。
6)版面还原。将识别并修改好的文本还原成跟扫描文稿版面的布局一样、可以供计算机阅读和查询检索的RTF、PDF、HTML、SGML/XML格式的数字文档。
7)数据入库。版面还原数字文档的保存。
4.4 提立OCR识别率的方法
利用OCR数字加工系统生成的双层PDF,文本层差错率最低可到万分之一,可呈现原版底纹和色彩风貌,可进行全文检索和复制引用,且检索信息可准确定位到字符,便于快速查找目标信息。为了减轻横向校对即人工校对工作量,提高工作效率,就要从根本上提高识别率。经过试验,以下几个方法可以提高栅格文件OCR识别率。
1)图像色彩设定。虽然灰度或彩色模式可以最大限度还原纸质资料原貌,是我们扫描数字化的首选,但是这两种色彩模式会增大影响识别率的背景噪音。若仅做文字识别及一般黑白插图选取,建议可将扫描程序的图像色彩设定设置为黑白,增大识别率。不过最终图像色彩的设定还要按照各类具体工作的规范要求来设置。
2)分辨率设置。我们都知道扫描分辨率设置越低,扫描速度越快,但同时也导致图像质量差,其文字识别准确率低。反之分辨率高,扫描速度慢,但文字识别准确率高。但这又不是绝对的,因为分辨率设置得太高后,纸张上的微小瑕疵也可能被认作标点符号或汉字等,文字识别准确率反而会有所降低。经反复测试,分辨率设为300dpi,是扫描速度及文字识别准确率的最佳平衡点。
3)图像处理。这里图像处理是指扫描输出图像前的倾斜校正和去污等。倾斜校正是为了调整文字方向使之正向,这样才能对OCR识别有所帮助。
双层PDF转换完成以后,在此基础上可以实现资料管理系统与PDF文件的挂接,对资料数据内容及其元数据等相关信息建立联系并形成数据包;然后通过调用全文数据库原数据创建索引文件,最后实现全文检索。通过全文数据库及全文检索的实现,得到高查全率和查准率,大幅度提高地质资料的利用价值,促进地质资料编研工作,为地质资料信息聚合的研究和深层次服务奠定了基础。
参考文献
[1]许呈辰.档案数字化过程中OCR技术的应用[J].档案管理,2011(1).
[2]徐永芳.OCR技术在档案数字化过程中的应用[J].艺术科技,2011(2).
[3]张旋.OCR技术研究进展及前瞻[J].科学技术,2010(4).
[4]郭金光.双层PDF技术及在档案数字化中的应用[J].新观察,2013(1).
[5]刘家真.文件保存格式与PDF文档[J].档案学研究,2002(2).