草庐IT

snappiness

全部标签

hadoop - 如何使用 Snappy 压缩将文件放入 HDFS

我正在为一个客户工作,我应该将一些文件通过Snappy压缩放入HDFS。我的问题是snappy编解码器未在mapred-site.xml或hdfs-site.xml中定义不知何故,我必须优先使用hdfsput命令放置文件,并且它们应该被压缩。没有机会更改配置文件,因为它是生产机器并且其他人正在积极使用它。另一个建议的解决方案是在不压缩的情况下将文件导入HDFS,然后创建压缩的hive外部表并使用其源文件,同时删除未压缩的文件。但这还有很长的路要走,而且不能保证一定有效。任何有关使用带有某种参数的hdfsput来压缩文件的建议,我们将不胜感激。 最佳答案

hadoop - 用于日志的 Snappy 或 LZO,然后由 hadoop 使用

我有大量服务。我记录事件。每隔几分钟,我使用gzip压缩日志并将它们旋转到S3。从那里,我们通过Hive使用Amazon的Hadoop(elasticmapreduce)处理日志。现在在服务器上,当我们压缩和旋转日志时,每隔几分钟就会出现CPU峰值。我们想从gzip切换到lzo或snappy以帮助减少这种cpu峰值。我们是一个受CPU限制的服务,因此我们愿意用更大的日志文件换取轮换时消耗的更少的CPU。我一直在阅读大量有关LZO和Snappy(又名zippy)的资料。LZO的优点之一是它在HDFS中是可拆分的。然而,我们的文件是通过Gzip压缩的~15MB,所以我认为我们不会达到HDF

hadoop - 如何在容器格式的 Hadoop 中使用 Snappy

我必须使用Snappy来压缩mapo/p和map-reduceo/p。此外,这应该是可拆分的。正如我在网上学习的那样,要使Snappy编写可拆分的o/p,我们必须在类似容器的格式中使用它。你能建议如何去做吗?我试着在网上找一些例子,但找不到一个。我正在使用Hadoopv0.20.203。谢谢。皮尤什 最佳答案 用于输出conf.setOutputFormat(SequenceFileOutputFormat.class);SequenceFileOutputFormat.setOutputCompressionType(conf,C

hadoop - 如何解压以snappy结尾的hadoop reduce输出文件?

我们的hadoop集群使用snappy作为默认编解码器。Hadoop作业减少输出文件名类似于part-r-00000.snappy。JSnappy无法解压缩文件bczJSnappy要求文件以SNZ开头。reduce输出文件以某种方式从一些字节0开始。如何解压文件? 最佳答案 使用“Hadoopfs-text”读取此文件并将其通过管道传输到txt文件。例如:hadoopfs-textpart-r-00001.snappy>/tmp/mydatafile.txt 关于hadoop-如何解压以

php - 使用 Knp Snappy 生成 pdf 文件时出现错误字符

我正在使用Symfony2。使用此代码生成pdf文件时:publicfunctionprintAction($id){//initialiser$demande$html=$this->renderView('PFETimeBundle:Demande:print.html.twig',array('demande'=>$demande));returnnewResponse($this->get('knp_snappy.pdf')->getOutputFromHtml($html),200,array('Content-Type'=>'application/pdf','Conten

java - UnsatisfiedLinkError :/tmp/snappy-1. 1.4-libsnappyjava.so 加载共享库 ld-linux-x86-64.so.2 时出错:没有这样的文件或目录

我正在尝试在kubernetes中运行KafkaStreams应用程序。当我启动pod时,出现以下异常:Exceptioninthread"streams-pipe-e19c2d9a-d403-4944-8d26-0ef27ed5c057-StreamThread-1"java.lang.UnsatisfiedLinkError:/tmp/snappy-1.1.4-5cec5405-2ce7-4046-a8bd-922ce96534a0-libsnappyjava.so:Errorloadingsharedlibraryld-linux-x86-64.so.2:Nosuchfileor

Spark中常用的压缩方法(python:Gzip、Snappy、LZO、Bzip2 )

Spark中常用的压缩方法有Gzip、Snappy、LZO、Bzip2等。一、压缩方法(python代码)下面以Python代码为例,介绍如何使用这些压缩方法。1.Gzip压缩方法#使用Gzip压缩方法压缩数据data=sc.parallelize(range(10)).map(str)data_gz=data.map(lambdax:(x,)).toDF(["value"]).write.format("gzip").mode("overwrite").save("data_gz")#使用Gzip压缩方法读取数据data_gz=spark.read.format("gzip").load("

python - 如何在 Windows 10 上安装 snappy C 库以便在 Anaconda 中与 python-snappy 一起使用?

我要安装parquetforpython在Windows10上的Anaconda2安装中使用pip。安装时我遇到了描述的错误here,安装程序找不到snappy-c.h。答案中没有提到如何在Windows上安装它。我从http://google.github.io/snappy/下载了Snappy库现在我被困住了。根据我的错误消息,我假设头文件需要在C:\Users\...\AppData\Local\Continuum\Anaconda2\include中,但在下载的存档中头文件和库文件都在同一个文件夹中。如何在Anaconda文件夹中正确安装它们?完整错误信息:Buildingwh

【云计算与大数据技术】数据编码LZSS算法、Snappy压缩库及分布式通信系统的讲解(图文解释 超详细)

一、数据编码概述数据编码概述-在分布式系统中需要处理大量的网络数据,为了加快网络数据的传输速度,通常需要对传输数据进行编码压缩数据压缩是以尽可能少的数码来表示信源所发出的信号,减少容纳给定的消息集合或数据采样集合的信号空间,这里讲的信号空间就是被压缩的对象,是指某信号集合所占的时域、空域和频域。信号空间的这几种形式是相互关联的,存储空间的减少意味着信号传输效率的提高,所占用带宽的节省,只要采取某种方法来减少某个信号空间就能够压缩数据一般来说,数据压缩主要是通过数据压缩编码来实现的。在给定的模型下通过数据编码来消除冗余,大致有以下3种情况信源符号之间存在相关性如果消除了这些相关性,就意味着数据压

HBase 2.3.7中snappy压缩配置

本文将介绍如何在HBase2.3.7中配置snappy压缩。snappy是一种快速的数据压缩和解压缩算法,可以提高HBase的存储空间利用率和读写性能。本文将使用HBase2.3.7版本,运行在三个Ubuntu系统的虚拟机中,分别作为master和slave节点。主要步骤如下:安装snappy,并检查是否成功。配置Hadoop,添加snappy的相关配置。配置HBase,添加snappy的相关配置。重启Hadoop和HBase服务。验证snappy压缩,使用CompressionTest工具和HBaseShell命令。本文使用了HBase2.3.7版本,运行在三个Ubuntu系统的虚拟机中,分