草庐IT

Bitmap压缩

全部标签

hadoop - 对同一个配置单元表进行多次压缩

我有一个按年/月分区的Hive表,它包含至少7年的数据。我想做的是通过Snappy压缩最新数据(比如最多1年的数据),但通过更好的压缩技术(如gzip等)压缩旧数据。我如何在Hive中执行此操作? 最佳答案 您可以使用不同的压缩设置覆盖不同的分区。配置压缩编解码器并使用此编解码器插入要压缩的覆盖分区。活泼的:setmapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;setmapreduce.map.out

hadoop - Lz4压缩不可拆分

我正在使用lz4压缩并将数据写入一个hive表,这个表有20个文件,每个文件在HDFS上是15G,这个表的每个文件名都以lz4结尾,例如,part-m-00000.lz4.当我从此表运行selectcount(1)时,它只启动了20个映射器,这意味着lz4splittable没有生效。据说lz4支持对文本文件的拆分,所以我想问一下我应该做什么或额外的步骤来启用它。 最佳答案 假设您可以控制数据的压缩方式,thiscodec可能更接近您的需要,因为它嵌入了一个可拆分层。它专为与Hadoop一起使用而设计。如果你不能改变格式,而且它被压

java - 合并 HDFS 中小于 128MB 的压缩 lzo 文件

我正在尝试将Kb大小的小型hdfs文件合并到128MB大小的文件中。所有这些kb大小的文件都是lzo压缩的任何人都可以帮忙吗?这是我到目前为止尝试过的方法。hadoopjar/opt/cloudera/parcels/CDH/jars/hadoop-streaming-2.6.0-cdh5.15.1.jar-Dmapred.reduce.tasks=10-Dmapred.reduce.output.compression.codec=lzo-Dmapred.output.compress=truemapred.output.compression.type=lzo-input"/use

hadoop - 带 block 压缩的序列文件

我需要启用带有block压缩数据的序列文件。下面是将存储为SequenceFile的表格。createtablelip_data_quality(buyer_idbigint,total_chkoutbigint,total_errpdsbigint)partitionedby(dtstring)rowformatdelimitedfieldsterminatedby'\t'storedassequencefilelocation'/apps/hdmi-technology/b_apdpds/lip-data-quality';在上表中,我通过启用这些命令以压缩格式获取数据-setma

hadoop - 如何使用 LZO 以外的压缩处理 Hadoop Map/Reduce 中的 Protocol Buffer 文件?

我想使用HadoopMap/Reduce来处理delimited使用LZO以外的东西压缩的ProtocolBuffer文件,例如xz或gzip。Twitter的elephant-bird库似乎主要支持读取LZO压缩的protobuf文件,因此似乎不能满足我的需求。是否有现有的库或标准方法来执行此操作?(注意:正如您从我选择的压缩算法中看到的那样,解决方案没有必要使protobuf文件可拆分。您的答案甚至不需要指定特定的压缩算法,但应该至少允许我提到的其中之一。) 最佳答案 您可能需要查看Hadoop的RAgzip补丁,以处理大型gz

java - 为什么在我设置 map 压缩属性后 hadoop 就卡在那里了?

下面是运行良好的代码片段:Configurationconf=newConfiguration();//PROBLEMPART!!!!!//conf.setBoolean("mapred.compress.map.output",true);//conf.set("mapred.output.compression.type","BLOCK");//conf.setClass("mapred.map.output.compression.codec",GzipCodec.class,CompressionCodec.class);Jobjob=newJob(conf,"WordCoun

hadoop - 使用 Lz4 在 ORC 中进行 Hive 压缩

我正在尝试使用LZ4压缩RC和ORC文件。我已经安装了Hadoop-2.7.1和Hive-1.2.1。对于LZ4,我可以毫无问题地压缩RC文件。但是,当我尝试使用LZ4在ORC文件中加载数据时,它不起作用。我创建了如下所示的ORC表:CREATETABLEFINANCE_orc(PERMNOSTRING,DATESTRING,CUSIPSTRING,NCUSIPSTRING,COMNAMSTRING,TICKETSTRING,PERMCOSTRING,SHRCDSTRING,EXCHCDSTRING,HEXCDSTRING,SICCDSTRING,HSLCCDSTRING,PRCSTR

Hadoop 压缩页眉和页脚

Gzip压缩文件格式是一种带有额外页眉和页脚的DEFLATE压缩文件格式。与lzop编解码器的情况类似,它是带有额外header的LZO格式。知道这些页眉和页脚是什么吗?我怎样才能看到它们的内容?感谢您的宝贵时间。 最佳答案 gzip头和尾格式在RFC1952中定义。. 关于Hadoop压缩页眉和页脚,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/35194810/

java - 如何在 hadoop 中禁用 native zlib 压缩库

我有大量以gz格式存储的文件,并试图通过读取这些文件来运行map-reduce程序(使用PIG)。我遇到的问题是,由于数据检查,Hadoop中的native解压器(ZlibDecompressor)无法成功解压其中的一部分。但我能够使用javaGZIPInputStream成功读取这些文件。现在我的问题是——有没有办法禁用Zlib?或者在hadoop(2.7.2)中是否有任何替代的GZipCodec可用于解压缩gzip输入文件?错误如下org.apache.hadoop.mapred.TaskAttemptListenerImpl:Task:attempt_1475882463863_

hadoop - 将压缩数据导入 Hive 中的意外元素

我正在尝试将压缩的TXT文件加载到Hive中。操作结束没有任何错误,但是在构造的表中,开头有一些意想不到的字符。为什么会这样?有关Hive中压缩数据存储的更多信息:https://cwiki.apache.org/confluence/display/Hive/CompressedStorage#cattest.txttab1tab2tab3tab4tab5tab6tab7tab8tab9#tar-cvzftest.gztest.txttest.txt#cathiveQuery.hqlCREATETABLEraw(col1STRING,col2STRING,col3STRING)ROW