OCR开源项目的比较总结

光学字符识别(OCR)是指对文字材料的图像文件进行分析和识别，以获取文字和版面信息的过程。即图像中的文本被识别并以文本的形式返回。

ocr的发展积累了很多。大多数人或企业直接使用第三方服务。目前，有许多大型企业提供第三方服务。百度、阿里云、腾讯等都提供了非常方便的api接口，可以调用，识别的速度、准确率、效果也都非常好。唯一的缺点就是api调用需要收费，对于调用频率不高的个人和企业来说还是很低的。

目前因为公司现状，使用开源有几个目的。

目前还有很多与ocr相关的开源项目。作者恰好是一家需要类似功能的公司，所以做了一些简单的调研，记录在这里。

我希望你能指出这项调查不准确。

Tesseract是Google开发的开源图像和文本识别引擎，由python开发。

因此，鉴于公司的现状，我放弃了这个项目的学习和考察。

Paddleocr是百度开源的中文识别ocr软件。

EasyOCR是用Python编写的OCR库，用于识别图像中的字符并输出为文本，支持80多种语言。

中文ocr

中文ocr_lite

TrWebOCR

cnocr

鉴于以上的比较和讨论，同时根据目前的公司情况和之前制定的一些目标，暂时选择最简单的cnocr进行学习和内部学习使用。同时鉴于cnocr只是一个python包，不能通过接口调用，所以做了一个补充项目hn_ocr。

目前放在github上，欢迎大家一起学习提高。