文字识别软件Tesseract-OCR的安装及使用

38   /   0   /   0   /   0   /   发布于 71天前
github上的地址:[Tesseract](https://githttps://github.com/tesseract-ocr/tesseract.git) [tessdata](https://github.com/tesseract-ocr/tessdata.git) gitee上的地址:[Tesseract-OCR ](https://gitee.com/mirrors/Tesseract-OCR.git) # 安装: 1. 使用命令安装 ``` apt install -y tesseract-ocr tesseract-ocr-chi-sim ``` 2. 编译安装 有时间再添加 # 使用: ``` tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...] ``` 参数说明 | 参数 | 说明 | | ---------- | ---------------------------------------------------------- | | FILE | 可以为图片也可以为文本。当为文本时,一行文本表示一张图片。 | | OUTPUTBASE | 输出 | | OPTINONS | 见下表 | | CONFIGFILE | 见下表 | | OPTIONS | 说明 | | ---------------------- | -------------------------------------------------------------------------------------- | | -C | | | -dpi N | 指定dpi,默认N为300,如果图片不包括内容,Tesseract将会去猜测; | | -I LANG<br />-l SCRIPT | 指定语言,默认为英语,可以指定多种语言,使用+连接<br />如:`eng+chi_sim`为英文加中文 | | -psm N | 设定图片中文字的格式 | | -oem N | 指定使用tesseract还是LSTM | | -tessdata-dir PATH | 指定tessdata的路径 | | -user-patterns FILE | 指定用于patterns文件位置 | | -user-words FILE | 指定用户words文件位置 | | CONFIGFILE | 说明 | | ---------- | -------------------------- | | alto | 输出格式为OUTPUTBASE.alto | | hocr | 输出格式为OUTPUTBASE.hocr | | pdf | 输出格式为OUTPUTBASE.pdf | | tsv | 输出格式为OUTPUTBASE.tsv | | txt | 输出格式为OUTPUTBASE.txt | | get.images | 将输入的图片写入文件 | | logfile | debug信息 | | Istm.train | | | makebox | 输出bounding-box | | quiet | 将debug信息输出到/dev/null | | 选项 | 说明 | | ----------------- | -------------- | | -h | 帮助 | | -help-extra | 高级用法帮助 | | -help-psm | 页分割模式帮助 | | -help-oem | engine模式帮助 | | -list-langs | 可用的语言 | | -print-parameters | 打印参数 | 使用golang调用 ```Go package main import ( "bytes" "fmt" "log" "os/exec" ) func main() { // 设置 Tesseract 命令参数 // 参数说明: // - 第一个参数: 输入图像文件路径 // - 第二个参数: 输出文件名(不需要扩展名) // - -l: 指定语言 cmd := exec.Command("tesseract", "example.png", "stdout", "-l", "chi_sim+eng") // 捕获标准输出和错误 var out bytes.Buffer var stderr bytes.Buffer cmd.Stdout = &out cmd.Stderr = &stderr // 执行命令 err := cmd.Run() if err != nil { log.Fatalf("命令执行失败: %v\n错误信息: %s", err, stderr.String()) } // 输出识别结果 fmt.Println("识别结果:") fmt.Println(out.String()) } ```
  • 共 0 条回复
  • 需要登录 后方可回复, 如果你还没有账号请点击这里注册
梦初醒 茅塞开
  • 不经他人苦,莫劝他人善。
  • 能量足,心态稳,温和坚定可以忍。
  • 辛苦决定不了收入,真正决定收入的只有一个,就是不可替代性。
  • 要么忙于生存,要么赶紧去死!
  • 内心强大到混蛋,比什么都好!
  • 规范流程比制定制度更重要!
  • 立志需要高远,但不能急功近利;
    行动需要迅速,却不可贪图速成。
  • 不要强求人品,要设计高效的机制。
  • 你弱的时候,身边都是鸡零狗碎;
    你强的时候,身边都是风和日丽。
  • 机制比人品更可靠,契约比感情更可靠。
  • 合作不意味着没有冲突,却是控制冲突的最好方法。
  • 误解是人生常态,理解本是稀缺的例外。
  • 成功和不成功之间,只差一次坚持!
  • 祁连卧北雪,大漠壮雄关。
  • 利益顺序,过程公开,机会均等,付出回报。