草庐IT

tesseract-doc

全部标签

java - 窗口、文档与 $wnd、$doc

我知道以下内容在GWT中是相同的:Windowand$wndDocumentand$doc除了第一个用于Java而第二个用于JSNI(JavaScript)之外,还有什么区别吗? 最佳答案 Windowisaclassplentyofstaticmethods,whichyoucanuseforgettingorsettingcertainpropertiesofthebrowserwindow,butactuallyitisnotthenativebrowserwindowobject.Thesemethodimplementat

java - 在 JAVA 中使用 Apache POI 和 iText 从 Word (DOC) 创建 PDF

我正在尝试从*.doc文档生成PDF文档。到现在为止,多亏了stackoverflow,我成功生成了它,但遇到了一些问题。我下面的示例代码生成没有格式和图像的pdf,只有文本。该文档包含PDF中未包含的空白区域和图像。代码如下:in=newFileInputStream(sourceFile.getAbsolutePath());out=newFileOutputStream(outputFile);WordExtractorwd=newWordExtractor(in);Stringtext=wd.getText();Documentpdf=newDocument(PageSize.

java - 在不知道其扩展名的情况下确定文档是 Java 应用程序中的 DOC 还是 DOCX

内容管理系统中有一个限制,要求存储所有具有特定扩展名(不同于DOC或DOCX)的word文档。但是,当向用户输出文档时,我们需要知道它是DOC还是DOCX文件,以便提供正确的MIME类型。那么,有没有办法以编程方式根据文档的内容找出文档是DOC还是DOCX? 最佳答案 Here是指向详细介绍许多不同文件类型的ForensicsWiki的链接。它描述了DOC和DOCX文件的header,因此您应该能够解析文件并确定它们是什么类型。查看链接,.doc文件是OLE复合文件,该文件应具有以下二进制头:d0cf11e0a1b11ae1相比之下

java - 无法加载库 'tesseract' : libtesseract. 所以:无法打开共享对象文件:没有这样的文件或目录

我有tesseract和Tess4J现在在我的MBP上运行了一段时间。今天我开始将我的应用程序迁移到服务器并开始在服务器上安装所有内容。在tomcat中运行Tess4J之前,我尝试运行一个简单的java程序以确保一切正常。这不是……我在centOS64位服务器上我已经安装了tesseract并且它工作正常-tesseractmyimage.jpgmytext生成数据但是,运行我使用Tess4j的简单类会产生此错误:Exceptioninthread"main"java.lang.UnsatisfiedLinkError:Unabletoloadlibrary'tesseract':li

java - 如何使用 POI api 在 java 中读取 doc 和 docx 文件

我正在尝试阅读doc和docx文件。这是代码:staticStringdistination="E:\\staticStringdocFileName="Requirements.docx";publicstaticvoidmain(String[]args)throwsFileNotFoundException,IOException{//TODOcodeapplicationlogichereReadFilerf=newReadFile();rf.ReadFileParagraph(distination+docFileName);}publicvoidReadFileParagr

java - 使用 Java 将 DOC 文件转换为 DOCX

我目前正在开发的一个Java软件中需要使用DOCX文件(实际上是其中包含的XML),但我公司有些人仍然使用DOC格式。您知道是否有一种方法可以使用Java将DOC文件转换为DOCX格式?我知道可以使用C#,但这不是一个选项我用谷歌搜索了一下,但什么也没有...谢谢 最佳答案 你可以试试Aspose.WordsforJava.它允许您loadaDOCfile和saveitasDOCXformat.代码很简单,如下图://Openadocument.Documentdoc=newDocument("input.doc");//Saved

java - Spring Rest Doc 不生成 html

我关注了gettingstartedguide逐字获取SpringRestDoc,但我无法从生成的片段中获取任何html。在我配置的目录(build/generated-snippets)中可以很好地生成片段,但我看不到任何html5/目录,其中包含从片段生成的html文件。文档atsomepoint说明如何将文档打包到jar中,很明显它需要html5/目录中的一些文件,但这不是在构建运行时创建的:dependsOnasciidoctorfrom("${asciidoctor.outputDir}/html5"){into'static/docs'}我错过了什么?我的项目文件,buil

使用opencv+tesseract识别图片中的表格

描述在java环境中使用opencv和tesserac识别一个图片表格环境:opencv和tesseract安装在linux环境下,docker将运行springboot服务opencv和tesseract的安装和docker加载可参考之前的文章过程将图片进行预处理,过滤掉颜色等干扰元素提取图片的水平线和垂直线,并进行重叠过滤得到水平线和垂直线的交点,根据交点构建单元格对每个单元格进行识别1.转换将image转换成matprivateMatbufferedImageToMat(BufferedImagebufferedImage){Matmat=newMat();try{//ConvertBu

java - 如何使用 Spring REST Docs 将顶级数组记录为响应负载

我正在使用SpringRESTDocs来记录RESTAPI。我正在尝试记录以下API操作:GET/subsystemsGET/subsystems/some_name例如,调用GET/subsystems/samba返回以下JSON对象:{"id":"samba","description":"..."}您可以使用以下使用SpringRESTDocs的代码片段来记录此API操作:this.mockMvc.perform(get("/subsystems/samba").accept(MediaType.APPLICATION_JSON)).andExpect(status().isOk

java - 完全隐藏 Java-doc 注释的键盘快捷键,因此它们不再在代码中占用任何行

我知道捷径:CTRL+SHIFT++CTRL+SHIFT+-分别扩展和最小化Java-doc注释。然而,这种折叠线的方式保留了一行空间:如何折叠以便不再有代码行被注释占用?我怎么看上面的java-doc注释只占用1行代码。我尽量不分心地工作,因此只想展示我的实际代码。HereistheofficialpageofIntellijwheretheircodefoldingshortcutsaresummarised(AndroidStudio是Intellij的一个分支,因此它们具有几乎相同的快捷方式)。我在这里找不到我要找的快捷方式。 最佳答案