如何运用免费软件进行文字识别(OCR)
在工作和学习中,我们经常需要处理不仅限于现成文本的内容。有时候我们需要从一些图片中提取信息,比如电子书的影印本或者微信截图中的优秀段落。这些图片中的内容可能需要进行摘录,以便进一步使用和参考。
这时候我们可能就需要用到 OCR(Optical Character Recognition,光学字符识别)技术来将图片中的文本转换为可编辑的文字。通过 OCR 软件或在线服务,我们可以将图片中的文字提取出来,并进行编辑、整理和使用。
什么是 OCR
OCR 是光学字符识别(Optical Character Recognition)的缩写。它是一种通过使用计算机算法和技术,将印刷或手写的文本转化为可编辑和可搜索的电子文本的过程。
OCR 技术可以将印刷体或手写的文本扫描或拍照后,通过图像处理、模式识别和机器学习等方法,将图像中的字符转化为计算机可识别的文本。这样一来,用户可以对扫描的文档进行编辑、搜索、复制或提取文本内容等操作,而无需手动输入。
OCR 在许多领域有广泛的应用,包括数字化文档管理、自动化数据录入、自动化表单处理、图书馆数字化档案、车牌识别、身份证识别等。它大大提高了文档处理和信息管理的效率,并减少了手动输入所带来的错误。
工具准备
- 在 汉王科技 依次点击【类别】:用于其他应用→【产品】:PDF 识别软件→【型号】:PDF OCR 以下载【汉王 pdf OCR】软件;
- 在 Umi-OCR 下载【umiOCR】软件;
- 在 Microsoft Store 下载【power toys】软件。
1. 如果需要识别的文件是 PDF 格式
- 在菜单栏中点击【文件】→【打开图像】,在对话框中选择需要识别的 pdf,再按需选择所需页数和 dpi(一般选择保留原书 dpi),等待软件对 pdf 进行拆分;如果原 pdf 为双层 pdf 或文字 pdf(即可以直接复制文字的 pdf),则可以选择此对话框下方的【pdf 转为 txt 文件】直接进行转换,但识别准确率不高;
- 选择所有图像文件,在【识别】菜单栏中点击【版面分析】,可以对图像中的可识别部分进行初步分析,分析完成后版面上会出现多个文本框,可以选中边缘进行拖拉以调整范围,在【识别】的【修改栏属性】菜单中修改属性,或是直接按【delete】删除不需要识别的部分;
- 完成图像处理后,在【识别】菜单中点击【开始识别】,识别完成后,可在上方直接校对;
- 校对完成或想在文字处理软件进行校对的话,选中左侧所有文件,在【输出】菜单中选择【到指定格式文件】,再用相应的软件打开即可。
2. 如果需要识别的文件是复数图片
- 首先请注意将图片名按先后顺序命名;
- 使用【汉王 pdf OCR】,步骤同 pdf 扫描,在此不做赘述;
- 也可使用【umi-OCR】,应在【设置】菜单中提前设置好输出格式和目录,点击【文件夹】图标,选中需要识别的图片后点击【开始任务】,完成后输出的文件已经已经指定格式存到指定路径了。
3. 如果需要识别的是实体书
- 使用扫描仪或手机获取图片后接上述操作。
4. 如果需要识别的是电脑屏幕上的部分文字(适合在电脑端阅读电子书时操作)
- 使用【umiOCR】,点击【批量处理】菜单下方的【截图】图标,截图后进行识别即可;
- 也可使用【power toys】,操作界面简洁易懂,在此不做赘述。
5. 如果要用手机进行 OCR(适合在阅读实体书时进行摘抄)
推荐 app【汉王扫描王】,免费好用,各大手机软件商店均可下载。
- 如遇识别内容被分成多个 txt 输出的情况,可用软件【txtforever】(下载地址: https://pan.baidu.com/s/1PnpZ3Bk-lTArrajva7EVzQ ,提取码 4hie)进行合并。
文本处理
- 识别软件经常会将原书的每一行作为一个段落。导致得到的文本多出不必要的换行,可利用 论文工具 优化排版,删除多余的换行符和空格,转换中英文标点等;
常见识别错误
- 破折号经常会被 OCR 成汉字“一”,需要将 word 页面放大观察字尾处是否有回笔,或是搜索“一一”(两个汉字“一”),反之亦然;
- 书面如果存在污渍容易被识别成乱码,需要在录入的时候注意;
- 部分因 OCR 出现的错误多次遇到后应及时记录,在最后用查找功能校对,以免肉眼看漏,如“负贵”(负责)、“白主”(自主)、“竞然”(竟然)、“夭”(天)等。
讨论
若阁下有独到的见解或新颖的想法,诚邀您在文章下方留言,与大家共同探讨。
反馈交流
其他渠道
版权声明
版权声明:所有 PKMer 文章如果需要转载,请附上原文出处链接。