草庐IT

pdf-viewer

全部标签

hadoop - 具有各种文档(pdf、ppt、MS word、纯文本等)的 hadoop 可搜索存档的最佳实践

我有一个问题,我有各种格式的文档,如PDF、MSWord、PPT、纯文本等,它们存储在HDFS中。我应该将内容提取到elasticsearch索引中,并为其构建一个全文搜索系统。我读过有关ES-Hadoop的内容。但是我有点困惑我是否可以在这种情况下使用ES或ApacheTika的mapper-attachments插件以及是否ES-Hadoop是否实时(以防我使用它)。我很好奇从文档中提取内容到ES索引并进行搜索的正确方法是什么。如有任何帮助,我们将不胜感激。萨钦 最佳答案 关于你的问题是使用ESmapperattachmentp

java - 如何将 pdf/images 存储到 HBase 表

我是HBase的新手。以下是我想要实现的目标:1.如何将.pdf或.png转成hbase可读格式?2、如何将这些文件导入到hbase表中?(将元数据存储在一个cf中,将对象存储在另一个cf中)任何人都可以分享这方面的例子吗?任何其他建议都有帮助。 最佳答案 图片见我的answer.对于PDF这也将起作用,因为我们正在尝试以最原始的方式存储字节数组。建议您使用SerializationUtils对于pdf,如我在答案中的示例中所述。或使用ApacheCommonsIOorg.apache.commons.io.FileUtils.re

hadoop - 使用 Hadoop 将 word 文档转换为 pdf

如果我想将1000多个word文件转换为pdf,那么使用Hadoop来解决这个问题是否有意义?使用Hadoop会比简单地使用带有作业队列的多个EC2实例有任何优势吗?此外,如果有1个文件和10个空闲节点,那么hadoop会拆分文件并将其发送到10个节点,还是将文件发送到仅1个节点而9个空闲节点? 最佳答案 在此用例中使用hadoop并没有太多优势。让相互竞争的消费者从队列中读取数据并生成输出将更容易设置,并且可能会更有效率。Hadoop不会在不同的节点上自动拆分文档和流程部分。尽管如果你有一个非常大的(数千页长)那么Hadoop用例

java - 是否有任何Bigdata工具来处理pdf文档

我必须处理PDF文档。Bigdata中是否有任何工具可以处理我的pdf文档(半结构化数据)?例如..如果我的PDF文档包含任何主题,如摘要或操作,我必须检索那些没有任何页脚的段落。现在我正在使用pdfBox和javaAPI来提取我的pdf文档,但是是否有任何大数据工具可用于执行相同的提取?? 最佳答案 我不知道有什么工具可以做你想做的事,但如果你可以设置Hadoop集群(或使用亚马逊AWS服务),那么你可以轻松地使用Hadoop流式处理通过一个用户定义的程序(您在Java中拥有的应该可以正常工作)。thisearlierSOques

hadoop - 如何将 Word 和 PDF 文档移动到 Hadoop HDFS?

我想从本地系统(不在Hadoop集群中的系统)复制/上传一些文件到HadoopHDFS。本地系统也可以是Windows系统。我尝试使用Flume假脱机目录。它适用于文本文件。对于其他文档,MIME类型已损坏。请告诉我将文件加载到HDFS的不同方法。 最佳答案 hadoopfs-copyFromLocalURI检查Hadoop文档:copyFromLocal请记住,ApacheFlume并不是为了复制一些文件而创建的。 关于hadoop-如何将Word和PDF文档移动到HadoopHDFS

python - 快速将原始文件转换为带水印的 pdf 到 swf

我已经有一个脚本可以将原始文件转换为带有水印的pdf文件到swf。我使用的工具是unoconv、python、celery和libreoffice。问题是转换大文件的速度很慢。我认为解决这个问题的方法是拆分页面并将其转换为多个celeryworker或hadoop。问题:我的问题是我应该从哪里开始更快地转换文件?在不解密pdf的情况下,我可以使用什么库来读取加密的pdf? 最佳答案 调整您的celery任务,使其可以并行工作并使用group()调用它们功能。 关于python-快速将原始

apache - nutch 仅提取 pdf 文件

有什么方法可以从1-5级执行urlfilter并从5级开始执行不同的urlfilter。我需要提取仅在给定级别之后的pdf文件(只是为了实验)。pdf文件将以二进制格式存储在crawl/segment文件夹中。我想提取这些pdf文件并将它们全部存储在1个文件夹中。我已经能够编写一个java程序来识别pdf文件。我不知道如何制作一个pdf文件,其内容具有相同的字体、页码、图像等。执行抓取合并分割数据运行makePDF.java这只识别pdf文件:Stringuri="/usr/local/nutch/framework/apache-nutch-1.6/merged572/2013040

java - 如何在 map reduce 程序中解析 PDF 文件?

我想在我的hadoop2.2.0程序中解析PDF文件,我找到了this,按照它说的,直到现在,我有这三个类:PDFWordCount:包含map和reduce函数的主类。(就像nativehadoopwordcount示例,但我使用了我的TextInputFormat类而不是PDFInputFormat。PDFRecordReaderextendsRecordReader:这是这里的主要工作。特别是我把我的initialize此处的函数以获得更多说明。publicvoidinitialize(InputSplitgenericSplit,TaskAttemptContextcontex

处理 PDF 文件的 Java MapReduce 程序

我需要使用Java在mapreduce程序中解析PDF文件。我正在使用CDH5.0.1进行集群设置。我有一个由FileInputFormat扩展的自定义输入格式类,我在其中覆盖了getRecordReader方法以返回自定义RecordReader的实例,并覆盖了isSplitable方法以防止文件不可拆分,如本SOanswer中所建议的那样.现在的问题是,在当前的CDHAPIgetRecordReader返回接口(interface)org.apache.hadoop.mapred.RecordReader而上面的SO答案中扩展到自定义RecordReader的是一个抽象类org.a

hadoop - 如何解析多个pdf转换成hadoop(例子)

我有100万个pdf,如何使用hadoop转换为文本并将其用于分析。目标是利用hadoop的强大功能将pdf数据提取为文本。 最佳答案 我已经在Hadoop上处理了一个pdf文件,没有尝试处理多个文件,但我相信它也适用于多个文件。完整的代码可以在下面的链接中找到http://ybhavesh.blogspot.in/2015/12/poc-sensex-log-data-processing-pdf-file.html希望这对您有所帮助!!.. 关于hadoop-如何解析多个pdf转换成