草庐IT

Bitmap压缩

全部标签

hadoop - HBase 压缩队列大小到底是多少?

有人知道区域服务器队列大小是什么意思吗?根据文档的定义:9.2.5.hbase.regionserver.compactionQueueSizeSizeofthecompactionqueue.Thisisthenumberofstoresintheregionthathavebeentargetedforcompaction.就是regionserver需要被majorcompacted的Store(或者storefiles?听说过两个版本)的数量。我的工作是使用顺序键(非分布式)以热点方式写入数据。我在度量历史记录中看到,一次发生了compaction-queue-size=4。这

hadoop - Flume 代理 - 我可以指定像 gzip 或 bz2 这样的压缩吗?

是否可以在Flume代理上指定压缩选项,以便数据以压缩格式传输到收集器?我知道在收集器级别有压缩选项,但如果能够从代理传输压缩数据也将非常有用。谢谢! 最佳答案 Flume具有您可以使用的gzip和gunzip接收器装饰器。将gzip装饰器放在代理接收器上,将gunzip装饰器放在收集器接收器上,然后在代理和收集器之间传输压缩数据应该就可以了。 关于hadoop-Flume代理-我可以指定像gzip或bz2这样的压缩吗?,我们在StackOverflow上找到一个类似的问题:

scala - 如何强制 spark/hadoop 忽略文件上的 .gz 扩展名并将其读取为未压缩的纯文本?

我的代码如下:vallines:RDD[String]=sparkSession.sparkContext.textFile("s3://mybucket/file.gz")URL以.gz结尾,但这是遗留代码的结果。该文件是纯文本,不涉及压缩。然而,spark坚持将其作为GZIP文件读取,这显然失败了。我怎样才能让它忽略扩展名并简单地将文件作为文本读取?基于thisarticle我已经尝试在不包括GZIP编解码器的各个地方设置配置,例如:sparkContext.getConf.set("spark.hadoop.io.compression.codecs",classOf[Defau

hadoop - 如何在 Apache Spark 中重新分区压缩文件?

我在HDFS中有数千个大小为2GB的压缩文件。我正在使用spark来处理这些文件。我正在使用SparktextFile()方法从HDFS加载文件。我的问题是如何重新分区数据,以便我可以并行处理每个文件。目前每个.gz文件都在一个任务中处理。因此,如果我处理1000个文件,则只会执行1000个任务。我知道,压缩文件不可分割。但是有没有其他方法可以让我更快地运行我的工作? 最佳答案 您可以在加载文件后使用rdd.repartition(#partitions)。这具有相关的洗牌成本,因此您需要评估并行化的性能提升是否涵盖了这个初始洗牌成

hadoop - 如何将 Hadoop Streaming 与 LZO 压缩的序列文件一起使用?

我正在尝试使用Amazon的ElasticMapReduce来处理Googlengrams数据集。在http://aws.amazon.com/datasets/8172056142375670处有一个公共(public)数据集,我想使用Hadoop流。对于输入文件,它表示“我们将数据集存储在AmazonS3中的单个对象中。该文件采用block级LZO压缩的序列文件格式。序列文件键是数据集的行号,存储为LongWritable,值是存储为TextWritable的原始数据。”我需要做什么才能使用HadoopStreaming处理这些输入文件?我尝试在我的参数中添加一个额外的“-inpu

hadoop - 使用插入覆盖分区的配置单元压缩

试图通过在hadoop中使用Insertoverwritepartition命令压缩hive分区下的文件来解决小文件问题。查询:SEThive.exec.compress.output=true;SETmapred.max.split.size=256000000;SETmapred.output.compression.type=BLOCK;SETmapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;sethive.merge.mapredfiles=true;sethive.merge.s

hadoop - HDFS 在存储数据时是否加密或压缩数据?

例如,当我将文件放入HDFS时$./bin/hadoop/dfs-put/source/fileinput文件在存储时是否压缩?文件在存储时是否加密?是否有我们可以指定的配置设置来更改它是否加密? 最佳答案 ThereHDFS中没有隐式压缩。换句话说,如果你想让你的数据被压缩,你必须那样写。如果您计划编写mapreduce作业来处理压缩数据,您将需要使用可拆分压缩格式。Hadoop可以处理压缩文件,这是一个很好的article在上面。此外,中间和最终MR输出可以是compressed.有一个JIRA关于“HDFS中的透明压缩”,但我

compression - 为什么 hadoop 不能拆分大文本文件然后使用 gzip 压缩拆分?

我最近一直在研究hadoop和HDFS。当您将文件加载到HDFS时,它通常会将文件拆分为64MB的block,并将这些block分布在您的集群中。但它不能对gzip文件执行此操作,因为gzip文件无法拆分。我完全理解为什么会这样(我不需要任何人解释为什么gzip文件不能拆分)。但为什么HDFS不能将纯文本文件作为输入并像正常一样拆分它,然后分别使用gzip压缩每个拆分?当访问任何拆分时,它只是即时解压缩。在我的场景中,每个拆分都是完全独立压缩的。拆分之间没有依赖关系,因此您不需要整个原始文件来解压缩任何一个拆分。这就是这个补丁采用的方法:https://issues.apache.or

java - 在 HDFS 上合并多个 LZO 压缩文件

假设我在HDFS上有这个结构:/dir1/dir2/Name1_2015/file1.lzofile2.lzofile3.lzo/Name2_2015file1.lzofile2.lzoName1_2015.lzo我想合并'dir2'中每个目录的每个文件并将结果附加到/dir1/DirName.lzo中的文件例如,对于/dir1/dir2/Name1_2015,我想合并file1.lzo、file2.lzo、file3.lzo并将其附加到/dir1/Name1_2015.lzo每个文件都是LZO压缩的。我该怎么做?谢谢 最佳答案 如

hadoop - 如何在hadoop中解压缩文件?

我试图解压缩存储在Hadoop文件系统中的zip文件,并将其存储回hadoop文件系统。我尝试了以下命令,但没有一个起作用。hadoopfs-cat/tmp/test.zip|gzip-d|hadoopfs-put-/tmp/hadoopfs-cat/tmp/test.zip|gzip-d|hadoopfs-put-/tmphadoopfs-cat/tmp/test.zip|gzip-d|hadoopput-/tmp/hadoopfs-cat/tmp/test.zip|gzip-d|hadoopput-/tmp我收到如下错误:gzip:stdinhasmorethanoneentry-