办公学习 - 办公软件 | 提取图片中的文字及工具软件下载

昨天有位同学问我有没有办法能快速把图片中的文字提取出来，一说这个就知道是在解决原创文章来源问题：）相信很多做SEO的朋友都会遇到这个问题吧？于是我就想着把研究心得写成文章跟大家分享一下。

要想知道如何提取图片中的文字，一定要先知道图片文字识别的原理，这其中有一个概念首先要提一下，那就是OCR，如果知道或听说过什么是OCR，想必你也不会很认真的看这篇文章了，因以下面所提到的方法，可能你已经在用，对吧？

什么是OCR

OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题，ICR（Intelligent Character Recognition）的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

概念普及完毕，接下来我们就正式开工。

工具/软件

1、Microsoft OneNote 2010（microsoft office2010完整版自带，点击下载，796M）

2、ABBYY FineReader 11.102.519 中文版(228M，OCR文字识别软件免费下载，点击链接直接下载)

3、本文案例图片文件，是ZAC老师的《SEO实战密码》图片版中的其中三张，点击下载，351K

步骤/方法

方法1：用Microsoft OneNote 2010

第1步：下载安装office2010，已经安装成功的同学自行跳过，如果连安装都不会，不用继续往下看了。

第2步：打开Microsoft OneNote 2010，新建一个笔记本，如下图所示：

打开Microsoft OneNote 2010，新建一个笔记本

第3步：下载上面提到的本文案例图片文件，打开一张，用QQ截图截取你要提取文字的部分，粘贴到OneNote中，然后在图片上面点右键，选择“复制图片中的文本”。

复制图片中的文本

第4步：打开记事本（强烈建议用notepad++替换系统自带的记事本！）这样就顺利提取到图片中的文字了！

顺利提取到图片中的文字

总结

使用Microsoft OneNote提取图片中的文字这个办法简单好用，速度也快，如果你需要识别的图片不多的话，用起来非常顺手。然而它的不足也是显而易见的，我总结下来有以下3点：

1、识别率有待提高；

2、对大篇幅的英文认识不好，中间几乎没有空格，完全没办法阅读；

3、如果待识别的图片达大或者文字过多的话，会出现提取不到图片上的文本的问题。

为了解决以上问题，我又另找了一个功能强大的软件，很好的解决了这些问题。这就是我接下来要讲到的ABBYY FineReader。

方法2：用ABBYY FineReader

ABBYY FineReader是一款真正的专业OCR，它不仅支持多国文字，还支持彩色文件识别、自动保留原稿插图和排版格式以及后台批处理识别功能，能够直接在 MS Word、MS Excel、WordPerfect 及 Word Pro 中扫描和读取文件、信件或各类表格，并且能存成 RTF、TXT、DOC、CSV、XLS 或 HTML 等格式。它能保持表格与图片中原始的多栏页面设计。FineReader Professional 在识别方面支持 ADF (自动进纸)扫描仪，批处理，拼音检查，强大的表格工具，多语言文件，背景运算和学习新的字体。它也完全支持 TWAIN 扫描仪。ABBYY 是世界文档识别、数据捕获和语言软件技术开发商的领航者。其获奖产品 FineReader OCR 软件可以把静态纸文件和 PDF 文件转换成可编辑可管理的电子文档形式，可以大大节省您的时间和精力。

关于这个软件的使用问题，我想大家应该是会安装就会用，我觉得我最大的作用是给大家找到这个好用的工具而已。为了找到一个靠谱的图片文字提取软件，我安装测试了不下10款，这一款是功能最为强大的！

ABBYY FineReader能完美解决图片中的文字提取问题

其他提取图片中的文字软件介绍

~~1、慧眼图像文字识别软件~~：骗人的，坑爹的货

我是在这篇文章中看到这个软件的，基本上可以判断为是有人故意发的软文了，引导我们去搜索这个软件，基本能找到的地址不是病毒就是需要购买，购买链接打开还是过期的，特别坑爹。其实这个软件就是下面第3个软件（文通慧视）的人为修改版本。

2、尚书七号：国产老牌的OCR软件，在没有找到ABBYY FineReader之前，一直用它。

尚书7号OCR软件是MICROTEK中晶科技公司，向汉王科技购买授权，赠送给用户使用的软件。尚书七号是一款专门为识别文字而研发的软件，尚书七号是应用OCR技术，为满足书籍、报刊杂志、报盘票据、公文档案等录入需求，实现系统管理方式而设计的软件系统。尚书七号OCR软件适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。

尚书7号OCR软件

3、清华TH—OCR 2000 千禧专业版+文通慧视

关于这两个工具的组合使用，我找到一篇比较好的介绍文章，原文在这儿，为防止以后该博客打不开了，我转到这儿来，原文如下：

现在数码相机技术越来越发达，生活中出门在外时看到一些好看的图片，第一个想法就是用相机拍下来，或者是去图书馆看书看到一些好的文章想保存下来时，就会想到用手机或相机拍下来，但是拍摄图片中的文字是图片格式的无法编辑，怎样提取图片中的文字，将图片中的文字转换为可以编辑的文本格式呢？今天我就教大家如何提取图片中的文字，效果图就是用相机拍摄的书本文字图片，然后转换为文本后的效果。