草庐IT

tesseract-doc

全部标签

ios - 带 libc++ 的 Tesseract-OCR 3.02

Xcode4.6、iOSSDK6.1、tesseract-ocr3.02由于最新的OpenCV版本是使用libc++构建的,而tesseract-ocr是使用libstdc++构建的,因此它们不能在一个xcode项目中一起使用。所以,我正在尝试使用libc++构建tesseract。使用脚本here(将基础sdk和部署目标更新到6.1),tesseract构建得很好,一旦C++标准库设置为编译器默认值,它就可以在我的xcode项目中工作。然后,根据答案here,我尝试更改脚本以使用libc++构建它.我将CXX更改为指向clang++,并将-stdlib=libc++添加到CXXFLA

iphone - 使用 Tesseract 进行 OCR 会导致 GetUTF8Text 方法出现内存泄漏

我正在使用tesseractOCR读取名片。我有内存泄漏,我无法解决它,我不知道如何解决。在我的代码中...tesseract->Recognize(NULL);char*utf8Text=tesseract->GetUTF8Text();GetUTF8Text()方法导致内存泄漏。这是内存泄漏工具的日志:tesseract::TessBaseAPI::GetUTF8Text()operatornew[](unsignedlong)libstdc++.6.dyliboperatornew(unsignedlong)libstdc++.6.dylibmalloclibsystem_c.d

php - 使用 PHP 从办公文件(.doc .ppt 等)生成 JPG

我正在构建一个应用程序,人们可以在其中上传文件并与其他人共享。我们希望做的部分工作是允许人们在线预览文件。是否有一种简单的方法可以为文档的前X个页面生成jpg?然后我们可以将这些jpg文件放在网页中以允许用户预览。我考虑过在服务器上安装openoffice,但希望某处有一个php库可以完成同样的工作。有人可以帮忙吗?干杯顺便说一句,不一定是jpg,任何图像文件都可以(实际上即使是pdf也可以) 最佳答案 用com类试试这个:您可以使用com类将office文件转换为jpgCOM类引用:-http://us2.php.net/manu

Python 实现 PDF 到 Word 文档的高效转换(DOC、DOCX)

PDF(PortableDocumentFormat)已成为一种广泛使用的电子文档格式。PDF的主要优势是跨平台,可以在不同设备上呈现一致的外观。然而,当我们需要对文件内容进行编辑或修改,直接编辑PDF文件会非常困难,而且效果也不理想。将PDF文件转换为Word文档(doc、docx)再进行编辑是一个更好的选择。本文将介绍如何使用Python编程语言,结合库和工具,将PDF文件转换为可编辑的Word文档,使文档的编辑变得方便高效。本文包含以下及个方面:PDF文件转Word文档的优势通过Python将PDF文件转为Word文档(Doc和Docx)通过Python将PDF文档转换为Docx文件并设

php - 在浏览器上显示 .docx (.doc) 而无需在 php 中下载

在PHP中是否有其他方式查看文件(本地/在线)?因为我想在我的浏览器中显示一个.docx(.doc)文件,但它一直在下载它。那么有人有代码吗?我继续搜索其他一些源代码,但没有运气。我尝试使用Iframe但仍然继续下载文件。谢谢! 最佳答案 使用iframe在浏览器中显示几乎所有类型文档的简单解决方案。SolutionisGoogleDocsViewer只需使用下面给出的iframe并替换其中文档的url。通过替换.docx文件的示例url,上面的代码变成了。通过替换.pdf文件的示例url,上面的代码变成了。Note:Documen

Python 实现 PDF 到 Word 文档的高效转换(DOC、DOCX)

PDF(PortableDocumentFormat)已成为一种广泛使用的电子文档格式。PDF的主要优势是跨平台,可以在不同设备上呈现一致的外观。然而,当我们需要对文件内容进行编辑或修改,直接编辑PDF文件会非常困难,而且效果也不理想。将PDF文件转换为Word文档(doc、docx)再进行编辑是一个更好的选择。本文将介绍如何使用Python编程语言,结合库和工具,将PDF文件转换为可编辑的Word文档,使文档的编辑变得方便高效。本文包含以下及个方面:PDF文件转Word文档的优势通过Python将PDF文件转为Word文档(Doc和Docx)通过Python将PDF文档转换为Docx文件并设

php - 如何从 .doc 模板在 php 中创建一个 word .doc 文件

我需要从word模板创建一个word文档,就像我们需要用值替换模板中的几个字符串(比如变量)。请告诉我们如何在PHP(或cakePHP)中做到这一点。 最佳答案 我建议查看phpLiveDocx:http://www.phplivedocx.org/还有一些关于SO的其他问题可能值得一读:UsePHPtocreateaDOCfileonaUnixBoxbasedonanHTMLwebformselectionCreateWordDocumentusingPHPinLinuxReading/WritingaMSWordfileinPH

php - phpcodesniffer "Tag cannot be grouped with parameter tags in a doc comment"产生的错误是什么

/***@paramVarien_Event_Observer$observereventobserver*@returnvoid*/phpCodesniffer为上述行生成以下错误。41|ERROR|Tagcannotbegroupedwithparametertagsinadoccomment.会是什么原因? 最佳答案 PHP_CodeSniffer将函数文档block中连续两行的参数组隔离开来。因此,在param标记行和return标记行之间添加一行将使它与PHP_CodeSniffer兼容。/***@paramVarien_

Java处理doc类型的Word文档转换成html(按顺序保留格式+图片)

最新有个新需求,就是doc文档转换html内容倒不是很难,给大家分享一下,总体思路就是按doc转html的思路来走,唯一缺点是不会自动转换图片,图片是要手动转成base64,默认是有html、body、head、meta等等标签,我这里都用正则处理掉了。需要注意的是:.docx格式的Word文档是一种基于XML和ZIP压缩技术的文件格式,其文件结构相对固定并且较为简单,可以通过一些开源的JavaScript库进行解析和转换(推荐使用mammoth.js在前端即可完成Word转换html的操作,但是目前的mammoth版本只支持docx,后续可能会支持解析doc的功能)。·.doc格式的Word

android - 改进 Tesseract 的阈值结果

我有点被这个问题困住了,我知道有很多关于堆栈溢出的问题,但就我而言。没有给出预期的结果。上下文:我正在使用AndroidOpenCV和Tesseract,所以我可以读取护照中的MRZ区域。当相机启动时,我将输入帧传递给AsyncTask,处理该帧,成功提取MRZ区域,我将提取的MRZ区域传递给函数prepareForOCR(inputImage),该函数将MRZ区域作为灰色Mat并输出我将传递给Tesseract的带有阈值图像的位图。问题:问题是在对图像进行阈值处理时,我使用blockSize=13和C=15的自适应阈值处理,但给出的结果并不总是相同,具体取决于图像的照明和帧的一般条件