印后装订中的质量管理(下)
- 发布时间:2008/7/31 14:48:31
- 浏览次数:871
由于OCR的辨识原理是采用字模的方式进行,所以一定要注意原稿是否水平。具体实施过程中,可以使用“自动倾斜校正”功能来解决。
4.原稿的预先处理
由于原稿的情况千差万别,所以在识别前需做一些预先处理。首先应该去除原稿中的杂点和图像,如果原稿中含有图像,则会影响OCR的文字切分,使OCR不能识别。遇到文档中有分栏的情况,需手动设定辨识范围,只有这样才能保证辨识结果的连贯性。
5.选用适当的识别方式
在具体的识别中,应注意原稿是横排还是竖排,由此选择正确的“编排格式”,以保持其对应。
6.开始识别
确认以上步骤后,即可按下“识别”按钮,识别完毕后,系统进入原稿校对界面。
7.原稿校对
通常而言,OCR对于不能*确定的文字,会显示为蓝色,请用户确认。但值得注意的是,在没有提示出错的地方也可能有错误,可以在此界面内,通过操作系统提供的文字输入方法,添加及修改所需的文字。
8.原稿保存
校对后的原稿一般以纯文本的格式保存,以便于编辑排版软件调用。
扫描识别应注意的问题:
1.原稿处理
原稿的质量直接影响扫描出来的图像质量,更会直接影响zui终OCR的正确率。例如,报纸在进行扫描之前,如果对其进行适当的处理,zui终的OCR效果可能会有质的改变。对于报纸等低质量原稿,较好的方法是在扫描之前先用复印机进行复印,复印时应注意调节对比度和亮度,使背景变成白色,而文字色泽保持黑色。经过复印以后的报纸,OCR的正确率有明显的提高。
2.扫描技巧
(1)在扫描仪中一定要放正原稿,不能位置倾斜,否则扫描出来的原稿也会是倾斜的,而且OCR软件无法正确识别。对无法摆正的原稿,需要使用“自动倾斜校正”或者“手动纠斜”功能进行纠正。如果文档扫描时稍微倾斜,可以利用OCR软件的“倾斜校正”功能纠正。
在扫描书本时更要注意,因为书脊翘起会导致中间部位的文字变形,所以一定要将书脊压平后再进行扫描。
(2)原稿类型应设置为线画稿,阈值应设置为较大的数值,一般设置为40%~75%。如果原稿较为清晰,应将阈值设置为40%~55%;如果原稿质量较差,则可将阈值设置为60%~75%。
选择适当的分辨力也是很重要的,一般来说,使用200~300dpi的分辨力进行扫描比较合适,如果分辨力太高也没有太大意义,只会增加扫描时间。
(3)大多数情况下,扫描出来的图像文件不能直接进行OCR处理,因为此时的图像文件常常会有污点干扰识别正确率。常用的图像处理软件,如Photoshop、ACDSee等的使用效果都很好。如果污点较少,就可以直接使用上述软件中的橡皮擦工具将污点擦掉。但如果原稿的质量太差、原稿遍布污点时,可通过调节图像对比度和亮度达到消除大面积污点的目的。即使扫描出的图像文件没有污点,也可以适当地调节对比度和亮度,这样可以增加文字和背景之间的反差,提高OCR软件的识别正确率。
特别需要注意的是,不论使用哪种图像处理方式,必须保证文字笔画的连续性,一旦文字中有缺笔断画的情况,就会严重影响识别正确率。
3.版面分析
如果需要识别的原稿包含多种字号或多种字体的文字,就需要进行版面分析,将字号和字体一致的文字划分为一个块,这样OCR软件才能正确识别。另外,在划分文字块的时候,每个文字块的上面会出现一个数字,如果需要调整识别文字的顺序,就必须在定义块的时候事先设定好。
4.OCR软件
OCR软件的识别正确率很大程度上取决于对原稿的处理和扫描后的调整,只有一小部分取决于OCR软件本身。现在市场上OCR软件的性能相差无几,因此OCR软件对OCR识别正确率的影响并不是很大,即使是扫描仪附送的软件也基本上可以满足OCR的需要。
当然,市面上比较流行的OCR软件在功能、识别质量以及操作方便性上可能有一定的差异,所以也可以根据个人习惯选择合适的OCR软件,如清华TH-OCR、尚书OCR、汉王OCR、丹青OCR等,但应当注意的是,有些的OCR软件并不支持个人的扫描仪。
5.校对和排版
经过一番调整,OCR识别正确率仍难以达到100%,因此校对*。汉字、英文字母和数字的混排以及标点符号都是容易出错的地方,因此校对的时候要特别注意。如果文档太长而且很复杂,还可以借助一些工具来帮助校对,如能读出文章的软件,一边听读一边看原稿,有了错误可以马上发现。