大家好,我是爱撸码的开源大叔!
如果你经常使用某些 OCR API,肯定受够了调用次数限制问题。
那么,今天大叔给大家分享一个开源的 OCR 识别库:Tesseract.js
。
简介
Tesseract.js
是基于Tesseract的一个纯 Javascript 编程语言的 ocr 识别库,简单实用。支持包括中英文等100多种语言(包括中文)的图片和视频文字识别,自动文本方向和脚本检测,用于读取段落,单词和字符边界框的简单界面,底层封装了Tesseract OCR引擎来实现。
Tesseract 从4.0版本之后增加了基于 LSTM 神经网络的识别引擎,可以通过训练出自己的词库,让识别的准确率接近100%!
这意味着,Tesseract.js
同样能够继承接近100%的超高准确率。目前 Github 上收获28.6k+ star
效果展示
图片识别 :
视频实时识别
安装
Tesseract.js
可以在浏览器和具有 Node.js 服务器上安装使用。
在浏览器中,可以直接在 html 页面上通过 script 标签引入CDN 外链使用:
在 Node.js 中则输入如下代码:
注:Tesseract.js v3 要求 Node.js 的版本在 v14 及以上才行。
使用
一旦安装完成,就可以非常轻松的使用了
或者更加命令式编程的方式。
使用这种方式的好处就是可以自定义构建一个 worker,实现一些诸如如语言配置、训练数据词库等等的简单配置。
官方还给出了10种使用方式,你可以用在你任何想使用的地方。
关于项目的更多细节、功能,感兴趣的小伙伴可以去项目地址探索~~~
1 | 官网地址 https://tesseract.projectnaptha.com |
写在最后
欢迎加入开源小分队读者交流群,聊天学习摸鱼为主,不定时会分享一些技术要点和优质学习资源,有一群有趣有料的小伙伴在等你哦!
进群方式:开源小分队
公众号后台回复888
,按提示操作即可进群。
问君能有几多愁,开源项目解千愁,我们下期再见!
大家的点赞、收藏和评论对大叔非常重要,如文章对你有帮助还请转发支持下,谢谢!