图片文字OCR识别-tesseract-ocr4.00.00安装使用

2018年9月25日 14:56:59技术•随笔评论3,751字数 1577阅读5分15秒阅读模式

摘要下载tesseract-ocr软件，软件下载网址https://github.com/tesseract-oc […]

下载tesseract-ocr软件，软件下载网址https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows

选择4.0.0-alpha for Windows下面Windows Installer made with MinGW-w64 from UB Mannheim，点击UB Mannheim进入另一网页。
2

进入得网址为https://github.com/UB-Mannheim/tesseract/wiki

点击tesseract-ocr-setup-4.0.0-alpha.20170804.exe，下载4.0版本的软件

下载链接为http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.0.0-alpha.20170804.exe

下载链接会根据软件版本更新，下载地址会不断更新。大家可以到网页自行查找下载链接。
3

下载好的软件安装包如图，双击安装软件。安装过程按照下面的图片指示进行。

注意选择安装语言包，包含英文（默认安装）、中文、数学公式等，可以根据需要自己下载。
安装完后打开软件坐在目录，这里我选择的是默认目录C:Program Files (x86)Tesseract-OCR
tesseract-ocr没有窗口界面，只能通过命令调用。调用需要cmd或powershell,

cmd打开可以通过，开始->Windows系统->命令提示符或者按快捷键win+r输入cmd后回车调用。
powershell打开可以通过：开始->Windows Powershell下面任选一个或者在目录中点击左上文件->打开windowspowershell->打开windowspoweshell（推荐这样使用，在当前图片所在目录调出powershell）
在软件所在目录，调出的powershell中输入tesseract如图，调出了软件的帮助说明，详细的命令参数说明。现在只能在软件所在的目录中才能够使用该软件，为了能将该软件作为系统的cmd一样，在任意目录中调用，下面将调整系统环境变量。
文件资源管理器中选中此电脑->右键属性打开界面->点击高级系统设置->在打开的系统属性界面点击环境变量->在环境变量界面选择系统变量中选中path，然后点下面的编辑，打开编辑环境变量界面新建一个C:Program Files (x86)Tesseract-OCR的值，然后确定
在系统变量下面点击新建，按照如图建一个变量如图

变量名TESSDATA_PREFIX

变量值C:Program Files (x86)Tesseract-OCRtessdata

，然后点击确定，之后界面依次点击确定，完成设置。变量建立完成。
经过上面的调整tesseract命令可以在任意目录调用了，下面是tessract应用实例

识别中文图片

1.在一个盘符的根目录放置了1.jpg图片，然后打开这个目录
2.在图片坐在文件夹打开powersehll,

在里面输入

tesseract 1.jpg 1.txt -l chi_sim+equ+eng

然后回车

1.jpg是当前目录中的1.jpg图片

1.txt是指定结果输出到文本文件

-l是指定使用的包

chi_sim是中文识别包，equ是数学公式包，eng是英文包
回车后，稍等待后结果如图，在图片坐在目录可以看到1.txt文件，打开如图，对于文字中的空格可以用替换工具全部替换，结果如图
tesseract-ocr是一款免费软件，做的已经很棒了，这里只是介绍入门操作，详细请看帮助文件，或

https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc

继续阅读

本文由 RS 发表于 2018年9月25日 14:56:59

OCR
python
tesseract

开源网盘Seafile系统

开源网盘Seafile系统

源码下载 7,657 05/24

用 Python 和 Twilio 实现自动化选课

用 Python 和 Twilio 实现自动化选课

技术•随笔 2,822 07/10

Python pandas 模块报错

Python pandas 模块报错

技术•随笔 2,424 09/18

助你整理杂乱无章的文件

助你整理杂乱无章的文件

技术•随笔 201 02/28

找出Word表格中特定内容所在的行和列

找出Word表格中特定内容所在的行和列

python代码：doc转docx文件

python代码：doc转docx文件

借鉴来自Github-pseudoyu的个人工具合集（2023.2.5更新）

借鉴来自Github-pseudoyu的个人工具合集（2023.2.5更新）

Stable Diffusion 安装与基本设置 (Windows / Mac)

Stable Diffusion 安装与基本设置 (Windows / Mac)

Claude 升级2.1 后，可轻松处理20W指令，准确率提升30%

Claude 升级2.1 后，可轻松处理20W指令，准确率提升30%

ChatGPT提问示范

ChatGPT提问示范

chatGPT提示词库

chatGPT提示词库

PVE环境安装macOS苹果系统通用入门级教程(在 Proxmox 8 上安装Install macOS Sonoma 14)

PVE环境安装macOS苹果系统通用入门级教程(在 Proxmox 8 上安装Install macOS Sonoma 14)

win11安装怎么跳过网络连接-win11跳过联网激活设置方法教程

win11安装怎么跳过网络连接-win11跳过联网激活设置方法教程

pve 7.2升级7.4

pve 7.2升级7.4

找出Word表格中特定内容所在的行和列

加载中...

发表评论

匿名网友

确定

昵称

邮箱

网址

Address