开源小分队

开源小分队

Never really desperate, only the lost of the soul.

我不信，这个项目 OCR 识别准确率居然能这么高！

永恒君

发布日期: 2022-11-22

大家好，我是爱撸码的开源大叔！

如果你经常使用某些 OCR API，肯定受够了调用次数限制问题。

那么，今天大叔给大家分享一个开源的 OCR 识别库：Tesseract.js。

简介

Tesseract.js是基于Tesseract的一个纯 Javascript 编程语言的 ocr 识别库，简单实用。支持包括中英文等100多种语言（包括中文）的图片和视频文字识别，自动文本方向和脚本检测，用于读取段落，单词和字符边界框的简单界面，底层封装了Tesseract OCR引擎来实现。

Tesseract 从4.0版本之后增加了基于 LSTM 神经网络的识别引擎，可以通过训练出自己的词库，让识别的准确率接近100%！

这意味着，Tesseract.js同样能够继承接近100%的超高准确率。目前 Github 上收获28.6k+ star

效果展示

图片识别 :

视频实时识别

安装

Tesseract.js可以在浏览器和具有 Node.js 服务器上安装使用。

在浏览器中，可以直接在 html 页面上通过 script 标签引入CDN 外链使用：

在 Node.js 中则输入如下代码：

注：Tesseract.js v3 要求 Node.js 的版本在 v14 及以上才行。

使用

一旦安装完成，就可以非常轻松的使用了

或者更加命令式编程的方式。

使用这种方式的好处就是可以自定义构建一个 worker，实现一些诸如如语言配置、训练数据词库等等的简单配置。

官方还给出了10种使用方式，你可以用在你任何想使用的地方。

关于项目的更多细节、功能，感兴趣的小伙伴可以去项目地址探索~~~

1 2	官网地址 https://tesseract.projectnaptha.com github地址 https://github.com/naptha/tesseract.js

写在最后

欢迎加入开源小分队读者交流群，聊天学习摸鱼为主，不定时会分享一些技术要点和优质学习资源，有一群有趣有料的小伙伴在等你哦！

进群方式：开源小分队 公众号后台回复888，按提示操作即可进群。

问君能有几多愁，开源项目解千愁，我们下期再见！

大家的点赞、收藏和评论对大叔非常重要，如文章对你有帮助还请转发支持下，谢谢！

开源小分队

http://ourceteams.github.io/2022/11/22/%E6%88%91%E4%B8%8D%E4%BF%A1%EF%BC%8C%E8%BF%99%E4%B8%AA%E9%A1%B9%E7%9B%AE%20OCR%20%E8%AF%86%E5%88%AB%E5%87%86%E7%A1%AE%E7%8E%87%E5%B1%85%E7%84%B6%E8%83%BD%E8%BF%99%E4%B9%88%E9%AB%98%EF%BC%81/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源开源小分队 !

永恒君

上一篇

13.5K Star，这款在线编辑器完全开源了！！！

13.5K Star，这款在线编辑器完全开源了！！！

2022-11-23 开源小分队

永恒君

下一篇

开源两周猛涨 7k+ Star，牛逼命令行录屏神器！

开源两周猛涨 7k+ Star，牛逼命令行录屏神器！

2022-11-20 开源小分队

永恒君