安装使用 Tesseract OCR 及配置问题解决
在Windows 10和Linux操作系统上安装和使用Tesseract OCR以及解决配置问题的步骤如下:
# Windows 10安装Tesseract OCR
下载安装包:
- 访问Tesseract (opens new window)的官方下载页面 ,选择适合Win10安装包 (opens new window)进行下载。
安装Tesseract:
- 双击下载的安装程序,按照提示完成安装。在安装过程中,可以选择安装路径,例如
C:\Program Files\Tesseract-OCR
。
- 双击下载的安装程序,按照提示完成安装。在安装过程中,可以选择安装路径,例如
配置环境变量:
- 将Tesseract的安装路径添加到系统环境变量
Path
中,例如C:\Program Files\Tesseract-OCR
。 - 设置
TESSDATA_PREFIX
环境变量,指向Tesseract的数据文件夹,例如C:\Program Files\Tesseract-OCR\tessdata
。
- 将Tesseract的安装路径添加到系统环境变量
验证安装:
- 打开命令行,输入
tesseract -v
来检查Tesseract的版本信息,以确认安装成功 。
- 打开命令行,输入
下载语言包:
- 如果需要支持额外的语言,可以访问官方资源或社区分享,下载对应的
.traineddata
文件,放置到tessdata
目录下 。
- 如果需要支持额外的语言,可以访问官方资源或社区分享,下载对应的
解决配置问题:
- 如果遇到
tesseract is not installed or it's not in your path
错误,检查Python的pytesseract.py
文件中的tesseract_cmd
路径是否正确 。 - 如果遇到
Error opening data file Tesseract-OCR\tessdata...
错误,确保路径中的反斜杠\
没有错误,并且tessdata
文件夹存在且包含所需的.traineddata
文件 。
- 如果遇到
# Linux安装Tesseract OCR
下载Tesseract OCR:
- 使用wget命令下载Tesseract和Leptonica的源码包 :
wget https://github.com/tesseract-ocr/tesseract/archive/4.0.0.tar.gz wget http://www.leptonica.org/source/leptonica-1.78.0.tar.gz
1
2
- 使用wget命令下载Tesseract和Leptonica的源码包 :
安装依赖:
- 安装必要的依赖包,例如
autoconf
,automake
,libtool
,libjpeg-devel
,libpng-devel
,libtiff-devel
,zlib-devel
:sudo apt-get install autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel
1
- 安装必要的依赖包,例如
编译安装Leptonica:
- 解压并编译安装Leptonica :
tar -xvf leptonica-1.78.0.tar.gz cd leptonica-1.78.0 ./configure make sudo make install
1
2
3
4
5
- 解压并编译安装Leptonica :
安装Tesseract:
- 解压并编译安装Tesseract :
tar -xvf tesseract-4.0.0.tar.gz cd tesseract-4.0.0 ./autogen.sh ./configure make sudo make install
1
2
3
4
5
6
- 解压并编译安装Tesseract :
配置环境变量:
- 修改
/etc/profile
文件,添加Leptonica和Tesseract的环境变量 :export LD_LIBRARY_PATH=/usr/local/lib export LIBLEPT_HEADERSDIR=/usr/local/include export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
1
2
3
- 修改
验证安装:
- 执行
ldconfig
来更新动态链接库缓存,并验证安装是否成功 。
- 执行
下载语言包:
- 将下载的语言包复制到
/usr/local/share/tessdata
或/usr/share/tesseract-ocr/tessdata
目录下 。
- 将下载的语言包复制到
解决配置问题:
- 如果遇到问题,可以查阅官方文档或社区论坛寻求帮助 。
以上步骤应该能够帮助你在Windows 10和Linux操作系统上成功安装和使用Tesseract OCR,并解决常见的配置问题。如果在安装或使用过程中遇到任何问题,可以参考官方文档或社区论坛 。
上次更新: 2024/11/21, 18:50:06
- 01
- OpenCV 安装与开发注意事项11-21
- 03
- Node与GLIBC_2.27不兼容解决方案08-19