如何运用免费软件进行文字识别(OCR)

如何运用免费软件进行文字识别(OCR)

在工作和学习中,我们经常需要处理不仅限于现成文本的内容。有时候我们需要从一些图片中提取信息,比如电子书的影印本或者微信截图中的优秀段落。这些图片中的内容可能需要进行摘录,以便进一步使用和参考。

这时候我们可能就需要用到 OCR(Optical Character Recognition,光学字符识别)技术来将图片中的文本转换为可编辑的文字。通过 OCR 软件或在线服务,我们可以将图片中的文字提取出来,并进行编辑、整理和使用。

如何运用免费软件进行文字识别(OCR)--

什么是 OCR

OCR 是光学字符识别(Optical Character Recognition)的缩写。它是一种通过使用计算机算法和技术,将印刷或手写的文本转化为可编辑和可搜索的电子文本的过程。

OCR 技术可以将印刷体或手写的文本扫描或拍照后,通过图像处理、模式识别和机器学习等方法,将图像中的字符转化为计算机可识别的文本。这样一来,用户可以对扫描的文档进行编辑、搜索、复制或提取文本内容等操作,而无需手动输入。

OCR 在许多领域有广泛的应用,包括数字化文档管理、自动化数据录入、自动化表单处理、图书馆数字化档案、车牌识别、身份证识别等。它大大提高了文档处理和信息管理的效率,并减少了手动输入所带来的错误。

工具准备

  • 汉王科技 依次点击【类别】:用于其他应用→【产品】:PDF 识别软件→【型号】:PDF OCR 以下载【汉王 pdf OCR】软件;
  • Umi-OCR 下载【umiOCR】软件;
  • 在 Microsoft Store 下载【power toys】软件。

1. 如果需要识别的文件是 PDF 格式

  • 在菜单栏中点击【文件】→【打开图像】,在对话框中选择需要识别的 pdf,再按需选择所需页数和 dpi(一般选择保留原书 dpi),等待软件对 pdf 进行拆分;如果原 pdf 为双层 pdf 或文字 pdf(即可以直接复制文字的 pdf),则可以选择此对话框下方的【pdf 转为 txt 文件】直接进行转换,但识别准确率不高;
  • 选择所有图像文件,在【识别】菜单栏中点击【版面分析】,可以对图像中的可识别部分进行初步分析,分析完成后版面上会出现多个文本框,可以选中边缘进行拖拉以调整范围,在【识别】的【修改栏属性】菜单中修改属性,或是直接按【delete】删除不需要识别的部分;
  • 完成图像处理后,在【识别】菜单中点击【开始识别】,识别完成后,可在上方直接校对;
  • 校对完成或想在文字处理软件进行校对的话,选中左侧所有文件,在【输出】菜单中选择【到指定格式文件】,再用相应的软件打开即可。

2. 如果需要识别的文件是复数图片

  • 首先请注意将图片名按先后顺序命名;
  • 使用【汉王 pdf OCR】,步骤同 pdf 扫描,在此不做赘述;
  • 也可使用【umi-OCR】,应在【设置】菜单中提前设置好输出格式和目录,点击【文件夹】图标,选中需要识别的图片后点击【开始任务】,完成后输出的文件已经已经指定格式存到指定路径了。

3. 如果需要识别的是实体书

  • 使用扫描仪或手机获取图片后接上述操作。

4. 如果需要识别的是电脑屏幕上的部分文字(适合在电脑端阅读电子书时操作)

  • 使用【umiOCR】,点击【批量处理】菜单下方的【截图】图标,截图后进行识别即可;
  • 也可使用【power toys】,操作界面简洁易懂,在此不做赘述。

5. 如果要用手机进行 OCR(适合在阅读实体书时进行摘抄)

推荐 app【汉王扫描王】,免费好用,各大手机软件商店均可下载。

文本处理

  • 识别软件经常会将原书的每一行作为一个段落。导致得到的文本多出不必要的换行,可利用 论文工具 优化排版,删除多余的换行符和空格,转换中英文标点等;

常见识别错误

  • 破折号经常会被 OCR 成汉字“一”,需要将 word 页面放大观察字尾处是否有回笔,或是搜索“一一”(两个汉字“一”),反之亦然;
  • 书面如果存在污渍容易被识别成乱码,需要在录入的时候注意;
  • 部分因 OCR 出现的错误多次遇到后应及时记录,在最后用查找功能校对,以免肉眼看漏,如“负贵”(负责)、“白主”(自主)、“竞然”(竟然)、“夭”(天)等。


反馈交流

其他渠道

版权声明