tesseract-ocr

c++ - Tesseract 或任何其他 OCR 库

我正在寻找有关如何在C++中使用(和训练？)Tesseract的解释/API文档/示例，在googleTesseract页面上没有任何有用的信息，但尚未在网上找到一些东西。任何有用的资源和经验都将非常受欢迎，因为我不知道如何开始。附言:我愿意听取关于其他方面的建议图书馆。仅免费库最佳答案我对Tesseract有一些经验...一个简单的“训练tesseract”谷歌显示了这个页面:http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract您必须在其中选择要训练的tes

c++ - Tesseract 虚假空间识别

我正在使用tesseract来识别序列号。这工作可接受，常见问题如错误识别零和“O”，6和5，或M和H存在。除了这个tesseract之外，还为识别出的单词添加了空格，而图像中没有空格。下图被识别为"HI3H"。此图像生成“FBKHJ1R1”所以tesseract添加了一个空格，尽管图像中并没有真正的空格。是否有可能参数化tesseract的间距行为？编辑对不起，忘了补充，我也有包含空格的序列号。所以我无法删除识别序列号内的所有空格。例如下图序列号中有空格，tesseract识别后结果为:J4F1583BB。除了对字符的识别是错误的之外，这个图像的空间识别是正确的。我的tesserac

amp Tesseract strong section c++opencv ocr spaces

c++ - Tesseract - 更改语言文件位置

我正在制作一个AIR项目，它需要一些OCR功能，所以我决定使用tesseract(现在我尝试让它在Windows上运行)。我的问题是，无法更改语言文件的位置-它总是尝试查看我的Tesseract安装目录(程序文件(x86)\Tesseract-OCR\tessdata\mylang.traineddata)有没有一种方法可以配置Tesseract以在我指定的位置查找此文件？例如在与tesseract.exe相同的文件夹中。我不想(或者可能不能)使用AIR安装程序安装应用程序。我已经用3.0版本和最新的SVN版本试过了。谢谢最佳答案

amp Tesseract section TESSDATA_PREFIX c++air ocr

c++ - 提高 Tesseract 检测质量

我正在尝试从用消费者相机(包括手机)拍摄的图像中提取不构成有意义单词的字母数字字符(a-z0-9)。这些字符具有相同的大小和字体类型，并且未被格式化。实际处理是在Windows下完成的。下图显示了原始输入:透视处理后，我使用OpenCV应用以下内容:从RGB转换为灰色应用cv::medianBlur去除噪声使用自适应阈值将图像转换为二进制cv::adaptiveThreshold我知道网格的行数和列数。因此，我只是使用此信息提取每个网格单元。完成所有这些步骤后，我得到的图像看起来类似于这些:然后我在每个提取的细胞图像上分别运行tesseract(最新的SVN版本和最新的训练数据)(我尝

amp Tesseract code section c++opencv ocr template-matching

C++ - Tesseract 令人失望的性能

我所在的公司正在考虑将其当前的OCR引擎(Nuance的OmniPage)转换为开源替代方案，例如Tesseract。为了获得一些性能基准(执行速度和准确性)来比较两者，我得到了一个非常简单的程序，只是为了了解Tesseract3.2CAPI的性能如何。我的初步观察(其中一些可能不正确，请随时在评论中更正我的解释):准确度很高。它与我们当前的引擎相比非常好。输出格式仅提供已识别的文本，而不是文本在原始图像中的位置的预览。是采用hOCR格式并将其转换为其他更具视觉吸引力的格式的可能性，但我未能在Windows上找到适合商业用途的开源转换器(我找不到来自ExactCODE'shocr2pd

amp Tesseract code 的 c++performance ocr

c++ - Tessaract OCR 是否使用神经网络作为其默认训练机制

抱歉，这可能是个愚蠢的问题。但我对机器学习和TessaractOCR还很陌生。我听说TessaractOCR可以训练。我需要知道的是TessaractOCR是否使用神经网络作为它们的默认训练机制，或者我们是否必须对其进行显式编程才能使用神经网络？抱歉，如果我对这个“培训”概念有错误的想法。但我需要确切知道的是Tessaract是否已经在使用NN，或者如果没有，我如何使用NN和tessaractOCR来提高识别准确性？如果有人可以向我推荐一些好的资源/方法来引用/尝试并开始使用，这也会有很大的帮助。我目前对基native器学习监督训练概念以及在TessaractOCR中执行基本图像OCR

amp Tessaract section 自适 c++machine-learning neural-network tesseract

windows - 尽管添加了 PATH，但似乎无法从命令行运行 tesseract

我正在尝试添加tesseract以便能够安装pytesseract。我使用Windows7。我将此路径添加到我的PATH环境变量中C:\ProgramFiles(x86)\Tesseract-OCR\tesseract.exe从命令行运行tesseractDMTX_screenshot.png输出或者正方体我得到了tesseract未被识别为内部或外部命令。这是我环境变量的一部分的复制粘贴:C:\ProgramFiles(x86)\Tesseract-OCR\tesseract.exe;C:\Users\Moondra\Anaconda_related\Anaconda\geckodr

tesseract 尽管 code section windows python-3.x

iphone - iOS 应用程序中的 Tesseract 集成错误

在我的iOS应用程序中集成TesseractSDK时出现一些错误。我遵循的程序-1)在xcode中拖动“libtesseract_full.a”2)在xcode中拖动“tessdata”文件夹3)在xcode中拖拽"baseapi.h"现在当我使用Tesseract时-//initthetesseractengine.tess=newTessBaseAPI();tess->SimpleInit([dataPathcStringUsingEncoding:NSUTF8StringEncoding],//Pathtotessdata-noending/."eng",//ISO639-3st

Tesseract iphone libtesseract_full libtesseract std ios

c++ - 为 iOS 编译时 Qt Creator Tesseract 链接器错误

当我尝试构建我的iOS应用程序时，出现以下链接器错误。将C++标准库设置为“libstdc++”可能会修复它，但我不确定如何在QTCreator中执行此操作。Undefinedsymbolsforarchitecturearmv7:"tesseract::TessBaseAPI::End()",referencedfrom:Ocr::~Ocr()inocr.o"tesseract::TessBaseAPI::SetImage(Pixconst*)",referencedfrom:Ocr::recognize(charconst*)inocr.o"tesseract::TessBaseA

amp Tesseract TesseractOCR const c++ios qt linker-errors

ios - 改进 Tesseract OCR 中的预处理步骤以进行实时捕获

我正在使用Tesseract库读取身份证信息。我试过使用一些Googleimages并得到了很好的结果，但是当我转到实时图像时，即从iPhone相机捕获图像时，我没有得到好的结果。我发现了Tesseract建议的一些预处理步骤。1。修复DPI(如果需要)最低300DPI。从iPhone相机实时捕获图像时，如何设置图像的DPI？2。修复文本大小(例如12pt应该没问题)。如何修复iPhone相机创建的大图像的文本大小？3。尝试修复文本行(去歪斜和去扭曲文本)。我读到Tesseract使用Leptonica库应用去扭曲文本。在此预处理阶段文本是否需要去扭曲或去扭曲？4。尝试修复图像的照明(

Tesseract 改进 section li ios ocr

30 31 323334 35 36