草庐IT

image2pipe

全部标签

java - 如何将 pdf/images 存储到 HBase 表

我是HBase的新手。以下是我想要实现的目标:1.如何将.pdf或.png转成hbase可读格式?2、如何将这些文件导入到hbase表中?(将元数据存储在一个cf中,将对象存储在另一个cf中)任何人都可以分享这方面的例子吗?任何其他建议都有帮助。 最佳答案 图片见我的answer.对于PDF这也将起作用,因为我们正在尝试以最原始的方式存储字节数组。建议您使用SerializationUtils对于pdf,如我在答案中的示例中所述。或使用ApacheCommonsIOorg.apache.commons.io.FileUtils.re

image - hadoop 上的并行图像处理

我有几个巨大的TIFF图像(60,000x60,000~600MB)。我想使用Hadoop为每个图像创建一个金字塔(深度缩放格式)并将它们存储在HDFS上。理想情况下,我想实现每个节点只处理图像的一部分。实现它的最佳方法是什么?在HDFS上存储小文件会不会有很大的开销? 最佳答案 你确定你需要hadoop吗?你的图像不是那么大。我用了6年的台式机可以在4分钟内对更大的图像进行深度缩放:$tiffinfohuge.tifTIFFDirectoryatoffset0x12d095e4(315659748)ImageWidth:91460

java - HIPI API : does it process 1 image per map task?

我正在阅读与Hadoop的HIPI图像处理API相关的论文,网址为:http://cs.ucsb.edu/~cmsweeney/papers/undergrad_thesis.pdf在解释其中的协方差示例时,该论文说“因为HIPI为每个映射任务分配一个图像,所以很容易随机抽取100个补丁的图像并执行此计算”。但是论文中显示的第一个图描绘了一个架构,其中多个图像被输入到一个maptask中!令人惊讶的是,他们写道一张图像由一个maptask处理,因为它会产生太多maptask,因为他们也在解决小文件问题。如果这是真的,那么带有MultithreadedMapper的序列文件是一个更好的选

image-processing - Web 应用程序中大型图像处理/服务的引用架构是什么?

我们构建了第一个版本的服务,需要接收图像和pdf文件,然后对每个文件进行大量处理,并为我们构建的网络和移动客户端提供几个调整大小的变体。在处理方面,我们执行:9种适用于网络和移动设备的图片尺寸变体300dpi图像的平铺(a-lamap平铺)5个图像处理和机器学习/标记过程在连续运行完整管道测试时,处理大约120张图像大约需要18分钟。我们正在努力大幅缩短该时间。当然,一件事是并行进行各种处理,只有少数依赖关系,例如,在生成几个关键变体之前,我们无法处理图像处理/机器学习步骤。从架构的角度来看,我们希望从我们的网络层卸载所有处理,但也需要将图像提供给网络/移动客户端。我们一直在研究用于并

apache-spark - Spark2.3.0-bin-without-hadoop,docker-image-tool.sh 缺少 hadoop jar

我正在尝试构建用于在kubernetes中部署的spark容器镜像,我怀疑我做错了。运行图像时出现以下错误:/opt/spark/conf/spark-env.sh:line72:/home/me/hadoop_s3/bin/hadoop:NosuchfileordirectoryError:AJNIerrorhasoccurred,pleasecheckyourinstallationandtryagainExceptioninthread"main"java.lang.NoClassDefFoundError:org/slf4j/Loggeratjava.lang.Class.ge

image-processing - 使用 Hadoop MapReduce 进行图像处理

很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visitthehelpcenter.关闭11年前。我正在motionestimation上做一个项目在视频序列的两帧之间使用BlockMatchingAlgorithm并使用SAD指标。它涉及在窗口大小中计算引用帧的每个block和候选帧的每个block之间的SAD,以获得两个帧之间的运动矢量。我想使用MapReduce实现相同的功能。以键值对的形式拆分框架,但我无法弄清楚逻辑,因为我到处都能看到wordCount或查询搜索问题,这与我的不相似

hadoop - 获取异常 WARN org.apache.hadoop.streaming.PipeMapRed : java. io.IOException: Broken pipe

出于某些调试目的,我正在现有的工作R脚本中添加打印语句。print("Hello")我在使用Hadoop流式处理执行此代码时收到Brokenpipe异常。如果我再次删除此打印件,它会起作用,对我来说听起来很奇怪!在编辑Rscript时,我正在通过窗口gitbash使用vi。您能否提出解决方案。 最佳答案 如果您的Hadoop集群由Linux节点组成,并且您提交的脚本是在windows或windowgitbash中编辑的,它将无法运行并抛出误导性异常。只需使用vi或emacs在linux中编辑文件。或者使用do2unix命令将文件从d

image - Hadoop InputSplit 之间是否重叠?

我正在做一项Hadoop工作,对一个或多个可能非常大的PGM文件进行卷积。每个映射器将处理来自其中一个文件的一定数量的行,并且缩减器将文件重新组合在一起。但是,每个映射器都需要在其进行卷积的上下几行。通常这不是问题,因为我创建了一个RecordReader来获得这种冗余,但它对InputSplit的第一行和最后一行提出了一个问题,因为我无法访问上次拆分的行。有什么方法可以使InputSplits重叠,以便第一行的最后几行是第二行的前几行? 最佳答案 您可以编写自己的自定义拆分器。参见thispost通过史蒂文·刘易斯

hadoop - 启用 dfs.image.compress 时会压缩什么?

Hadoophdfsdocumentation表示此旋钮指定是否应压缩“dfs图像”。那具体指的是什么?存储在hdfs中的输入文件、输出文件(有一个单独的参数)或其他什么? 最佳答案 这里的“dfsimage”是实际dfs的副本,在检查点时创建。当最初创建检查点时,检查点有助于恢复到以前的dfs状态。图像文件包含dfs中存在的所有文件。压缩会尝试使用压缩编解码器将此文件压缩到更小的大小。 关于hadoop-启用dfs.image.compress时会压缩什么?,我们在StackOverf

java - "Unable to execute HTTP Request: Broken Pipe"与 Amazon EMR 上的 Hadoop/s3

我开发了一个自定义JAR,我用它来处理ElasticMapReduce中的数据。数据是来自AmazonS3的数十万个文件。JAR没有做任何非常时髦的事情来读取数据-它只是使用CombineFileInputFormat。当我针对少量测试数据运行作业时,一切都完美无缺。然而,当我针对我的完整数据集运行它时,在我的工作中花费了一段(随机)时间,我会遇到某种似乎没有得到正确处理的HTTP或套接字错误。在一项工作中,我在SYSLOG中得到以下信息:2015-11-1621:47:17,504INFOcom.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSyst