草庐IT

c# - 在哪里可以找到可用于扫描和 OCR 文档的免费 .Net (C#) 库?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion我正在搜索一个免费的.Net(C#)库,我可以使用它从文档扫描仪进行扫描,然后对文档进行OCR,这样我就可以从中获取文本并保存在数据库中。经过一番搜索后,我找不到任何人在VisualStudio2010和.Net4中工作。有人知道任何像

javascript - 在 VS 2013 中将 Microsoft OCR 库与 JS/jQuery 结合使用

我目前正在开发Windows8.1应用程序,我使用的是网络语言,主要是jQuery(Cordova类型项目),因为它可能会在其他平台上使用。我需要使用MicrosoftOCR库(不是Tesseract或任何其他库,我知道它们,但我现在真的需要使用它)来分析图像并在我的应用程序中使用提取的文本。我下载了JavaScriptsampleappfromMSDN我启动了它:它完全正常工作(当然是在VS2013中安装OCR插件之后)。我现在正尝试将OCR引擎集成到我的应用程序中(我也在我的项目中安装了OCR插件)但它根本不起作用。事实上,当我尝试在我的机器上启动我的应用程序时,执行失败并向我返回

linux - 运行 ImageMagick 将低质量 pdf 转换为图像(用于 OCR)的最佳参数是什么

我有几个低质量的pdf。我想使用OCR——更准确地说Ocropus从他们那里得到文本。要使用,我先使用ImageMagick--将pdf转换为图像的命令行工具--将这些pdf转换为jpg或png。但是ImageMagick生成的图像质量非常低,Ocropus几乎无法识别任何内容。我想了解处理低质量pdf以向OCR提供尽可能好的质量图像的最佳参数是什么。我找到了thispage,但我不知道从哪里开始。 最佳答案 您可以通过键入了解ImageMagick的“委托(delegate)”(IM使用的外部程序,例如Ghostscript)的详

linux - 如何在 Ubuntu/Linux 发行版中安装 Tesseract-OCR 3.03?

我和一个friend有兴趣为一个CV项目训练tesseract-OCR引擎。我们尝试使用一些包装器,例如PyTesser和pyocr,但目前结果并不像我们需要的那样准确。因此,我们想尝试训练tesseract以更好地实现我们的目的(即识别食品标签上的文本),但在安装训练工具时遇到了一些麻烦。我们尝试过的:查看谷歌代码网站,'Compiling'pageonthetesseract'sgooglecodewiki说培训工具仅在3.03版上可用。然而,tesseract-ocr的谷歌代码“下载”页面只有3.02的Material。“编译”页面的底部也有一些关于在Windows和OSX上安装

java - 开源 OCR

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭4年前。Improvethisquestion我正在寻找一个在Linux上运行的开源OCR库。我需要它来处理PNG和PDF。大多数情况下,我想从java或ruby​​连接这个库。知道是否有可用的东西吗?问候。

php - PHP/jQuery/JavaScript 中的免费 OCR 处理 API

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答它。关闭8年前。Improvethisquestion是否有任何免费的PHPOCRAPI,它在PHP、jQuery或JavaScript中有详细记录?我正在为iOS编写一个网络应用程序,我想利用iOS6safari中新的照片上传API来进行OCR图像处理。非常感谢!:)(编辑:哦,还有一个类似Google-Googles的图像识别API也足够了,它不一定是OCR,尽管我更喜欢它。:) 最佳答

python - 从 PDF 上的 Google Vision API OCR 获取线条和段落,而不是符号

我正在尝试使用GoogleCloudVisionAPI现在支持的PDF/TIFF文档文本检测。使用他们的示例代码,我可以提交PDF并接收带有提取文本的JSON对象。我的问题是保存到GCS的JSON文件仅包含边界框和“符号”文本,即每个单词中的每个字符。这使得JSON对象非常笨重且难以使用。我希望能够获取“LINES”、“PARAGRAPHS”和“BLOCKS”的文本和边界框,但我似乎无法通过AsyncAnnotateFileRequest()方法。示例代码如下:defasync_detect_document(gcs_source_uri,gcs_destination_uri):""

Linux中的Python OCR模块?

我想在linux中找一个好用的OCRpython模块,我找到了pytesserhttp://code.google.com/p/pytesser/,但它包含一个.exe可执行文件。我尝试将代码更改为使用wine,它确实有效,但它太慢了,真的不是一个好主意。有没有像它一样易于使用的Linux替代品? 最佳答案 您可以将tesseract包装在一个函数中:importosimporttempfileimportsubprocessdefocr(path):temp=tempfile.NamedTemporaryFile(delete=F

python - 使用 pytesseract OCR 识别图像中的文本

我需要使用Pytesseract从这张图片中提取文字:和代码:fromPILimportImage,ImageEnhance,ImageFilterimportpytesseractpath='pic.gif'img=Image.open(path)img=img.convert('RGBA')pix=img.load()foryinrange(img.size[1]):forxinrange(img.size[0]):ifpix[x,y][0]而“temp.jpg”是还不错,但是打印的结果是,2WW不是正确的文本2HHH,那我怎样才能去除那些黑点呢? 最佳

python - 我自己的 Python OCR 程序

我还是个初学者,但我想写一个字符识别程序。这个程序还没有准备好。而且我编辑了很多,因此评论可能不完全匹配。我将使用8-connectivity进行连接组件标记。fromPILimportImageimportnumpyasnpim=Image.open("D:\\Python26\\PYTHON-PROGRAMME\\bild_schrift.jpg")w,h=im.sizew=int(w)h=int(h)#2D-Arrayforareaarea=[]forxinrange(w):area.append([])foryinrange(h):area[x].append(2)#numbe