文字识别软件Tesseract-OCR的安装及使用
github上的地址:[Tesseract](https://githttps://github.com/tesseract-ocr/tesseract.git) [tessdata](https://github.com/tesseract-ocr/tessdata.git)
gitee上的地址:[Tesseract-OCR ](https://gitee.com/mirrors/Tesseract-OCR.git)
# 安装:
1. 使用命令安装
```
apt install -y tesseract-ocr tesseract-ocr-chi-sim
```
2. 编译安装
有时间再添加
# 使用:
```
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
```
参数说明
| 参数 | 说明 |
| ---------- | ---------------------------------------------------------- |
| FILE | 可以为图片也可以为文本。当为文本时,一行文本表示一张图片。 |
| OUTPUTBASE | 输出 |
| OPTINONS | 见下表 |
| CONFIGFILE | 见下表 |
| OPTIONS | 说明 |
| ---------------------- | -------------------------------------------------------------------------------------- |
| -C | |
| -dpi N | 指定dpi,默认N为300,如果图片不包括内容,Tesseract将会去猜测; |
| -I LANG<br />-l SCRIPT | 指定语言,默认为英语,可以指定多种语言,使用+连接<br />如:`eng+chi_sim`为英文加中文 |
| -psm N | 设定图片中文字的格式 |
| -oem N | 指定使用tesseract还是LSTM |
| -tessdata-dir PATH | 指定tessdata的路径 |
| -user-patterns FILE | 指定用于patterns文件位置 |
| -user-words FILE | 指定用户words文件位置 |
| CONFIGFILE | 说明 |
| ---------- | -------------------------- |
| alto | 输出格式为OUTPUTBASE.alto |
| hocr | 输出格式为OUTPUTBASE.hocr |
| pdf | 输出格式为OUTPUTBASE.pdf |
| tsv | 输出格式为OUTPUTBASE.tsv |
| txt | 输出格式为OUTPUTBASE.txt |
| get.images | 将输入的图片写入文件 |
| logfile | debug信息 |
| Istm.train | |
| makebox | 输出bounding-box |
| quiet | 将debug信息输出到/dev/null |
| 选项 | 说明 |
| ----------------- | -------------- |
| -h | 帮助 |
| -help-extra | 高级用法帮助 |
| -help-psm | 页分割模式帮助 |
| -help-oem | engine模式帮助 |
| -list-langs | 可用的语言 |
| -print-parameters | 打印参数 |
使用golang调用
```Go
package main
import (
"bytes"
"fmt"
"log"
"os/exec"
)
func main() {
// 设置 Tesseract 命令参数
// 参数说明:
// - 第一个参数: 输入图像文件路径
// - 第二个参数: 输出文件名(不需要扩展名)
// - -l: 指定语言
cmd := exec.Command("tesseract", "example.png", "stdout", "-l", "chi_sim+eng")
// 捕获标准输出和错误
var out bytes.Buffer
var stderr bytes.Buffer
cmd.Stdout = &out
cmd.Stderr = &stderr
// 执行命令
err := cmd.Run()
if err != nil {
log.Fatalf("命令执行失败: %v\n错误信息: %s", err, stderr.String())
}
// 输出识别结果
fmt.Println("识别结果:")
fmt.Println(out.String())
}
```
- 共 0 条回复
- 需要登录 后方可回复, 如果你还没有账号请点击这里注册。
wiseAI
✨ 梦初醒 茅塞开
- 不经他人苦,莫劝他人善。
- 能量足,心态稳,温和坚定可以忍。
- 辛苦决定不了收入,真正决定收入的只有一个,就是不可替代性。
- 要么忙于生存,要么赶紧去死!
- 内心强大到混蛋,比什么都好!
- 规范流程比制定制度更重要!
-
立志需要高远,但不能急功近利;
行动需要迅速,却不可贪图速成。 - 不要强求人品,要设计高效的机制。
-
你弱的时候,身边都是鸡零狗碎;
你强的时候,身边都是风和日丽。 - 机制比人品更可靠,契约比感情更可靠。
- 合作不意味着没有冲突,却是控制冲突的最好方法。
- 误解是人生常态,理解本是稀缺的例外。
- 成功和不成功之间,只差一次坚持!
- 祁连卧北雪,大漠壮雄关。
- 利益顺序,过程公开,机会均等,付出回报。
