当前位置:首页 > 发言稿 > 【OCR文字识别工具在课件制作中的应用】课件制作大赛优秀作品
 

【OCR文字识别工具在课件制作中的应用】课件制作大赛优秀作品

发布时间:2019-04-04 04:22:58 影响了:

  摘 要:在社会交流信息化、办公技术数字化的时代背景下,教师在备课时常需要借鉴或引用一些不可编辑的文档,采用逐字录入的方式效率较低。为此,可以采用文字识别工具,对常见格式文档进行可编辑处理。经实践验证,OCR文字识别工具可以明显提高工作效率,节省可观的录入时间。
  关键词:文字识别系统(OCR);PDF虚拟打印机;分辨率
  一、引言
  教师在备课中制作电子教案和多媒体课件时,经常涉及到文本的编辑,有时需要借鉴或引用已有的文档内容。若这些文档是一些非可直接编辑的内容,比如纸质文档、图片文档及PDF格式文档等,采用逐字录入的方式,对非专业文字录入人员来说,会耗费大量时间。但如若采用文字识别系统(OCR),并通过一些相关基本操作,将这类文档批量转换为可编辑的文本,将会明显提高工作效率,从而能使教师将更多的时间倾注到对内容的理解和整合上来,更好地实现备课的价值诉求。
  文字识别系统(OCR)是一种成熟的技术,有多种很好的软件,如尚书六号表格文字识别系统、清华紫光OCR等,它们可以对图片中的文字进行识别处理,从而将其转换为可编辑的电子文本资料。
  文字识别的关键是获得图像清晰、分辨率足够的文本图片。本文主要以教材等印刷文字内容、PDF格式文字资料为例,采用下述方法将其转换为清晰的文本图片,然后使用文字识别系统再转变为可编辑的文本资料。该方法操作简单,经较长时间使用验证,效果比较理想。
  二、印刷文字资料的文字识别操作方法
  为获得图像清晰、分辨率足够的文本图片,建议使用500万像素以上数码相机拍照。在拍照时,为保证页面对比均匀、图像清晰,应注意应选择光线充足的地方,尽可能不使用闪光灯,待照页面应尽可能保持平整,确保照片文字大小均匀、幅面方正。为防止照片模糊,可每页加照一张备用。
  1.用数码相机将待识别的印刷文字资料拍摄成照片,全部照完后导入计算机。
  2.打开文字识别(OCR)软件,如尚书六号表格文字识别系统。操作步骤如下:
  ■
  ①打开图像文件:文件→打开图像页。
  ■
  ■
  ②选择识别区域:编辑→设定识别区域(整页识别可略去此步)。
  ③文字识别:识别→文字识别。
  ■
  ④进入文稿校对窗口,校对完成后进行保存,也可直接复制至剪贴板。
  ■
  ⑤粘贴至工作文件(粘贴操作略)。
  三、PDF格式文字资料的识别录入方法
  PDF(便携式文档格式)是一种通用文件格式,目前PDF格应用比较广泛,但这类格式的文档大多不可直接进行文字编辑。这里我们使用Adobe Acrobat 7.0 Professional软件,通过它将PDF格式的文档转换成图片格式,或使用软件的快照工具直接截取局部图片。
  1.整页PDF文件的图片转换
  ①将待转换的PDF文档“打印”成单页(或几页)的PDF文档。安装Adobe Acrobat 7.0 Professional软件后,便同时安装了 “Adobe PDF” 虚拟打印机,其使用方法与通常打印机使用方法完全相同,只是打印结果是PDF文件(相当于另存为)。选取待打印页数,将所需内容“打印”分隔成单页(或几页)PDF文档。
  ②在Adobe Acrobat 7.0 Professional中打开“打印”后的PDF文件。
  ③点击“另存为”,“保存类型”选择“JPEG”;在“设置”中分辨率更改为“300像素/英寸”(建议);选择“保存”,PDF文件将按每个页面分别转换为JPEG格式图片。
  ■
  ■
  ■
  ④最后就可用OCR文字识别软件进行操作,步骤如前所述。
  2.局部PDF内容的识别录入
  整个PDF文件转换图片的时间比较长,有时也没有必要完全转换,可以选择所需要的局部内容。这时可以选用“快照工具”方式,将PDF页面扩放至最大,将屏显部分或选定部分复制至剪贴板。当快照不可用时,可使用键盘上的“PrtScn”,或其他抓图软件,如红蜻蜓抓图精灵等。
  操作步骤如下:
  ①同样为保证文字识别时的足够分辨率,应先对图片转换分辨率进行设置。设置方法:在菜单栏点击“编辑”→“首选项”→“种类栏”→“一般”→选中“使用固定分辨率快照”→调整分辨率,分辨率的调整范围为0~720像素/英寸,同样分辨率越高图像越清晰,常用文档的分辨率可调整至300像素/英寸左右。
  ■
  ②打开画图(所有程序→附件→画图)程序。
  ③在Adobe Acrobat 7.0 Professional程序中使用“快照工具”截取需要识别的内容。
  ④将截取的图片粘贴至“画图”,保画图文件。
  ⑤文字识别再用OCR文字识别软件进行操作。
  ⑥粘贴至工作文件(粘贴操作略),重复步骤③~⑥可连续进行局部内容识别录入。
  四、结语
  本文介绍了目前常见的、不能直接编辑的文本文字识别录入,总的思路是借用几种常用软件或工具,将这些文本转换为具有足够分辨率的图片,然后通过准确、有效的文字识别转化为可编辑的文档内容。由于文字识别是针对图片文字的,因此将待识别的资料转化为具有足够分辨率的图片是关键环节。有些常用阅读文件本身自带文字识别工具(如pdg格式常用的超星阅读器),就可直接进行文字识别,而无须进行转换操作。
  经过两年多的实际应用来看,借用上述的文字识别方法,可以明显提高文字录入速度和准确率,从而将更多的时间用于对参考内容的领会和思维加工。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3