浅析汉字识别技术在档案管理工作中的应用--.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《浅析汉字识别技术在档案管理工作中的应用--.docx》由会员分享,可在线阅读,更多相关《浅析汉字识别技术在档案管理工作中的应用--.docx(7页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、浅析汉字识别技术在档案管理工作中的应用汉字识别技术(简称OCR)可以理解为是让认字的技术。它通过光电信号转换,即文本数据。?一、汉字识别技术的价值?汉字识别技术的价值主要体现在两个方面:?一方面,把纸质上的固定信息变成可以被检索利用的活信息,为文本数据技术提供丰富的数据源。?首先,从库存的情况来看,近几十年来形成的大量印刷汉字档案记载了我们-和国家的重要,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于中,检索利用也有不便之处,难于满足现代对档案信息的多种利用需求。其
2、次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。?另一方面,提供了一种新的档案目录数据的录入方式。?应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来
3、确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR为我们提供了一条新的途径。它通过“拖拉的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。?二、汉字识别后生成的文本数据的属性问题。?原始性
4、是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。?知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。?汉字识别后生成的文本数据是将档案的内容以特殊的方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。?汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 浅析 汉字 识别 技术 档案 管理工作 中的 应用
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内