草庐IT

Bitmap压缩

全部标签

api - libhdfs c/c++ api是否支持读/写压缩文件

我发现有人说libhdfs在2010年左右不支持读/写gzip文件。我下载了最新的hadoop-2.0.4并阅读了hdfs.h。也没有压缩参数。现在想知道现在支持读取压缩文件了吗?如果不是,我怎样才能为libhdfs打补丁并让它工作?提前致谢。最好的问候海地 最佳答案 据我所知,libhdfs仅使用JNI访问HDFS。如果您熟悉HDFSJavaAPI,libhdfs只是org.apache.hadoop.fs.FSDataInputStream的包装器。所以现在不能直接读取压缩文件。我猜你想通过C/C++访问HDFS中的文件。如果是

hadoop - 压缩 HDFS 文件时出现 IOException

我想压缩HDFS中当前存在的文件并删除未压缩的文件。这是代码,但它因IOException而出错。关于为什么会发生这种情况的任何指示?CompressionCodecFactoryccf=newCompressionCodecFactory(conf);CompressionCodeccodec=ccf.getCodecByClassName(GzipCodec.class.getName());InputStreaminpStrm=codec.createInputStream(fs.open(infoFilePath));OutputStreamcompressedOutputSr

hadoop - 是否有可用于 lzo 压缩二进制数据的 Scalding 源?

我正在使用ElephantBird's将序列化的Thrift记录写入文件可分割的LZO压缩。为此,我使用了他们的ThriftBlockWriter类。然后我的Scalding工作使用FixedPathLzoThrift源来处理记录。这一切都很好。问题是我仅限于单个Thrift类的记录。我想开始使用RawBlockWriter而不是ThriftBlockWriter[MyThriftClass]。因此,我的输入将是LZO压缩的原始字节数组,而不是LZO压缩的Thrift记录。我的问题是:我应该使用什么来代替FixedPathLzoThrift[MyThriftClass]?“protoc

hadoop - 从压缩文件中将数据加载到 Hive 的推荐方法是什么?

我遇到了thispageonCompressedStorage在文档中,这让我有点困惑。根据该页面,如果我的输入文件(在AWSs3上)是压缩的gzip文件,我应该首先使用选项STOREDASTextFile加载数据,然后使用选项创建另一个表code>STOREDASSEQUENCEFILE并将数据插入其中。这真的是推荐的方式吗?或者我是否可以使用选项STOREDASSEQUENCEFILE将数据直接加载到表集中?如果前一种方法真的是推荐的方法,是否有任何进一步的解释为什么是这样? 最佳答案 您必须以其格式加载数据。这意味着,如果您的

具有压缩/加密文件(大文件)的 Hadoop Mapreduce

我有hdfs集群,它以最终用户选择的压缩/加密形式存储大型csv文件。对于压缩、加密,我创建了一个包装器输入流,它以压缩/加密的形式将数据提供给HDFS。压缩格式使用GZ,加密格式AES256。一个4.4GB的csv文件在HDFS上压缩为40MB。现在我有了mapreducejob(java),它可以一起处理多个压缩文件。MR作业使用FileInputFormat。mapper计算splits时,4.4GB的压缩文件(40MB)只分配1个splitstart为0,splitlength相当于40MB的mapper。如何处理这种较大尺寸的压缩文件。?我发现的一种选择是实现自定义Recor

hadoop - 压缩hive外部表中的Json数据,查询时抛出异常?

我已经按照以下步骤创建了外部表Hive>ADDJAR/usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar;Hive>sethive.exec.compress.output=true;Hive>setmapred.output.compress=true;Hive>setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;Hive>setio.compression.codecs=org.apache.hadoop.io.compress.GzipCode

hadoop - 压缩 Hadoop Archive 工具的输出

我正在使用HadoopArchive为了减少我的Hadoop集群中的文件数量,但为了保留数据,我想尽可能长时间地保留我的数据。然后问题是HadoopArchive没有减少文件夹大小(我的文件夹有多种类型的文件,大小文件都有,所以不适合使用SequenceFile)。我使用了一些选项,比如-Dmapreduce.compress.map.output=true-Dmapred.map.ouput.compress.codec=org.apache.hadoop.io.compress.GzipCodec但是这是行不通的。有没有人知道压缩Hadoop存档输出的方法,或者建议我以某种方式实现

hadoop - 如何在Hadoop中自动压缩文件?

我是Hadoop的新手,我想压缩一个大文件并将其放在HDFS中。到目前为止,这就是我所做的1)安装单节点集群2)我的core-site.xml是这样的fs.defaultFShdfs://localhost:9000io.compression.codecscom.hadoop.compression.lzo.LzoCodec现在,当我使用以下命令将本地2GB文件复制到HDFS时。我仍然在HDFS中看到相同的大小。hadoopfs-put06_27_06_2016_tcp-leef.log-online/user/hduser/test/不确定我在这里遗漏了什么,是否有任何其他属性我需

hadoop - 如何查询制作压缩的parquet文件?

我使用apachedrill制作了数据格式更改程序。在这个程序中,如果csv文件转换成json,在hdfs中生成json文件但是我要输出的文件是压缩的。这可能吗?如果可以的话怎么做?? 最佳答案 是的,您可以在apachedrill中设置压缩类型。来自文档,YoucansetDrillqueryplanningandexecutionoptionspercluster,atthesystemorsessionlevel.Optionssetatthesessionlevelonlyapplytoqueriesthatyourundu

hadoop - mapreduce 中的压缩文件 VS 未压缩文件。哪个性能更好?

我有一个10GB的csv文件,我想在HadoopMapReduce中处理它。我有一个15节点(Datanode)集群,我想最大化吞吐量。我应该使用什么压缩格式?或未压缩的文本文件总能给我比压缩文本文件更好的结果。请解释原因。我使用了未压缩的文件,它给了我比Snappy更好的结果。为什么会这样? 最佳答案 Snappy压缩的问题在于它不可拆分,因此Hadoop无法将输入文件分成block并运行多个映射器来进行输入。因此,您的10Gb文件很可能由单个映射器处理(在应用程序历史UI中查看)。由于hadoop将大文件存储在不同机器上的单独b