草庐IT

tesseract-ocr

全部标签

Android NDK - 构建 TessTwo(Android 版 Tesseract 工具的分支) - ndk-build 失败

当我运行ndk-build时,它因以下错误而失败:$ndk-buildmake:/…/android-ndk-r7/toolchains/arm-linux-androideabi-4.4.3/prebuilt/linux-x86/bin/arm-linux-androideabi-gcc:CommandnotfoundCompilearm:jpeg问题是,虽然它说“commandnotfound”,但上面的路径中存在“arm-linux-androideabi-gcc”。即使当我直接从/…/toolchains/arm-linux-androideabi-4.4.3/prebuilt

linux - 运行 ImageMagick 将低质量 pdf 转换为图像(用于 OCR)的最佳参数是什么

我有几个低质量的pdf。我想使用OCR——更准确地说Ocropus从他们那里得到文本。要使用,我先使用ImageMagick--将pdf转换为图像的命令行工具--将这些pdf转换为jpg或png。但是ImageMagick生成的图像质量非常低,Ocropus几乎无法识别任何内容。我想了解处理低质量pdf以向OCR提供尽可能好的质量图像的最佳参数是什么。我找到了thispage,但我不知道从哪里开始。 最佳答案 您可以通过键入了解ImageMagick的“委托(delegate)”(IM使用的外部程序,例如Ghostscript)的详

linux - 如何在 Ubuntu/Linux 发行版中安装 Tesseract-OCR 3.03?

我和一个friend有兴趣为一个CV项目训练tesseract-OCR引擎。我们尝试使用一些包装器,例如PyTesser和pyocr,但目前结果并不像我们需要的那样准确。因此,我们想尝试训练tesseract以更好地实现我们的目的(即识别食品标签上的文本),但在安装训练工具时遇到了一些麻烦。我们尝试过的:查看谷歌代码网站,'Compiling'pageonthetesseract'sgooglecodewiki说培训工具仅在3.03版上可用。然而,tesseract-ocr的谷歌代码“下载”页面只有3.02的Material。“编译”页面的底部也有一些关于在Windows和OSX上安装

java - 开源 OCR

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭4年前。Improvethisquestion我正在寻找一个在Linux上运行的开源OCR库。我需要它来处理PNG和PDF。大多数情况下,我想从java或ruby​​连接这个库。知道是否有可用的东西吗?问候。

php - PHP/jQuery/JavaScript 中的免费 OCR 处理 API

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答它。关闭8年前。Improvethisquestion是否有任何免费的PHPOCRAPI,它在PHP、jQuery或JavaScript中有详细记录?我正在为iOS编写一个网络应用程序,我想利用iOS6safari中新的照片上传API来进行OCR图像处理。非常感谢!:)(编辑:哦,还有一个类似Google-Googles的图像识别API也足够了,它不一定是OCR,尽管我更喜欢它。:) 最佳答

c++ - 使用 Tesseract 进行页面布局分析?

Tesseract3能够执行页面布局分析。但是,我找不到任何关于如何将库用于此类目的的示例代码或文档。我希望这里有人可以解释如何对图像执行布局分析以及如何解析结果数据。 最佳答案 Tesseract可以被赋予一个页面模式参数(-psm),它可以有以下值:0=仅限方向和脚本检测(OSD)。1=使用OSD自动分割页面。2=自动页面分割,但没有OSD或OCR3=全自动页面分割,但没有OSD。(默认)4=假设有一列可变大小的文本。5=假设一个统一的垂直对齐文本block。6=假设一个统一的文本block。7=将图像视为单个文本行。8=将图像

python - 从 PDF 上的 Google Vision API OCR 获取线条和段落,而不是符号

我正在尝试使用GoogleCloudVisionAPI现在支持的PDF/TIFF文档文本检测。使用他们的示例代码,我可以提交PDF并接收带有提取文本的JSON对象。我的问题是保存到GCS的JSON文件仅包含边界框和“符号”文本,即每个单词中的每个字符。这使得JSON对象非常笨重且难以使用。我希望能够获取“LINES”、“PARAGRAPHS”和“BLOCKS”的文本和边界框,但我似乎无法通过AsyncAnnotateFileRequest()方法。示例代码如下:defasync_detect_document(gcs_source_uri,gcs_destination_uri):""

Linux中的Python OCR模块?

我想在linux中找一个好用的OCRpython模块,我找到了pytesserhttp://code.google.com/p/pytesser/,但它包含一个.exe可执行文件。我尝试将代码更改为使用wine,它确实有效,但它太慢了,真的不是一个好主意。有没有像它一样易于使用的Linux替代品? 最佳答案 您可以将tesseract包装在一个函数中:importosimporttempfileimportsubprocessdefocr(path):temp=tempfile.NamedTemporaryFile(delete=F

python - 使用 pytesseract OCR 识别图像中的文本

我需要使用Pytesseract从这张图片中提取文字:和代码:fromPILimportImage,ImageEnhance,ImageFilterimportpytesseractpath='pic.gif'img=Image.open(path)img=img.convert('RGBA')pix=img.load()foryinrange(img.size[1]):forxinrange(img.size[0]):ifpix[x,y][0]而“temp.jpg”是还不错,但是打印的结果是,2WW不是正确的文本2HHH,那我怎样才能去除那些黑点呢? 最佳

python - 使用 python-tesseract 获取识别单词的边界框

我正在使用python-tesseract从图像中提取单词。这是一个tesseract的Python包装器,它是一个OCR代码。我正在使用以下代码来获取单词:importtesseractapi=tesseract.TessBaseAPI()api.Init(".","eng",tesseract.OEM_DEFAULT)api.SetVariable("tessedit_char_whitelist","0123456789abcdefghijklmnopqrstuvwxyz")api.SetPageSegMode(tesseract.PSM_AUTO)mImgFile="test.