草庐IT

hadoop - 如何防止 hadoop 损坏的 .gz 文件

我正在使用以下简单代码将文件上传到hdfs。FileSystemhdfs=FileSystem.get(config);hdfs.copyFromLocalFile(src,dst);文件由webserverjava组件生成,logback轮转关闭,格式为.gz。我注意到有时.gz文件已损坏。>gunziplogfile.log_2013_02_20_07.close.gzgzip:logfile.log_2013_02_20_07.close.gz:unexpectedendoffile但是下面的命令确实显示了文件的内容>hadoopfs-text/input/2013/02/20/

apache - 我在 hadooplibs 文件夹中找不到 Apache Oozie Hadoop Libs tar.gz 文件

我在ApacheOozie安装过程中遇到问题。运行“bin/mkdistro.sh-DskipTests-Dhadoopversion=2.6.0”后,我在hadooplibs/target文件夹中找不到oozie-4.2.0-hadooplibs.tar.gz。这是安装状态:[INFO][INFO]ApacheOozieMain.................................SUCCESS[6.297s][INFO]ApacheOozieHadoopUtils.........................SUCCESS[5.081s][INFO]ApacheOo

json - 使用 Apache Drill 查询压缩的 gz 文件

我让ApacheDrill查询未压缩的JSON文件没有问题,但我正在努力处理gz压缩的JSON文件。我的理解是Drill使用Hadoop文件连接器,我认为它能够处理gz文件,但似乎Drill的JSON查询功能总是锁定到.json文件。我试过这样做:"formats":{"gz":{"type":"json"}}但是,收到文件未找到错误。也试过这个:"formats":{"json":{"type":"json","extensions":["gz"]}}这会导致“无效的JSON映射”错误。 最佳答案 这是一个已在最新的master分

hadoop - 减少大量 GZ 文件的 Hadoop 映射器数量

我有一个用例,我有3072个gz文件,我在这些文件上构建了一个HIVE表。现在,每当我对该表运行查询时,查询都会生成3072个映射器,并且需要大约44分钟才能完成。早些时候,相同的数据(即相同的数据大小)存​​在于384文件中。同样的查询只用了大约9分钟。我在网上搜索了一下,发现映射器的数量是由i/p数据的“拆分”数量决定的。因此,设置参数:mapreduce.input.fileinputformat.split.minsize和mapreduce.input.fileinputformat.split.maxsize设置为64MB之类的高值会导致每个映射器占用64MB的空间数据,即

hadoop - 如何解压hadoop中的gz文件

想知道有没有hadoop命令解压gz文件坐在HDFS上并将内容显示到标准输出。 最佳答案 只需使用文本命令hdfsdfs-textfile.gzHadoop知道如何检测gzip文件并为您解压缩 关于hadoop-如何解压hadoop中的gz文件,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/32821702/

scala - 如何强制 spark/hadoop 忽略文件上的 .gz 扩展名并将其读取为未压缩的纯文本?

我的代码如下:vallines:RDD[String]=sparkSession.sparkContext.textFile("s3://mybucket/file.gz")URL以.gz结尾,但这是遗留代码的结果。该文件是纯文本,不涉及压缩。然而,spark坚持将其作为GZIP文件读取,这显然失败了。我怎样才能让它忽略扩展名并简单地将文件作为文本读取?基于thisarticle我已经尝试在不包括GZIP编解码器的各个地方设置配置,例如:sparkContext.getConf.set("spark.hadoop.io.compression.codecs",classOf[Defau

java - 使用 Commons Compress 将目录压缩为 tar.gz

我在使用公共(public)压缩库创建目录的tar.gz时遇到问题。我有一个目录结构如下。parent/child/file1.rawfileN.raw我正在使用以下代码进行压缩。它运行良好,无一异常(exception)。但是,当我尝试解压缩那个tar.gz时,我得到一个名为“childDirToCompress”的文件。它的大小正确,因此文件在压缩过程中显然已相互附加。所需的输出将是一个目录。我不知道我做错了什么。任何明智的公共(public)压缩器都能让我走上正确的道路吗?CreateTarGZ()throwsCompressorException,FileNotFoundExc

java - 解压缩 tar.gz 文件时出现问题

我一直在尝试解压缩以下文件:sudowgethttp://download.oracle.com/otn-pub/java/jdk/7u21-b11/jdk-7u21-linux-x64.tar.gz具有以下内容:sudotarzxvfjdk-7u21-linux-x64.tar.gz-C/usr/lib/jvm/我收到这个错误gzip:stdin:notingzipformattar:Childreturnedstatus1tar:Errorisnotrecoverable:exitingnow我正在使用AmazonLinux实例。默认情况下安装的是jre而不是jdk,我需要它才能运

python - 如何将压缩的(gz)CSV 文件读入 dask Dataframe?

有没有办法将通过gz压缩的.csv文件读取到dask数据帧中?我直接用试过了importdask.dataframeasdddf=dd.read_csv("Data.gz")但得到一个unicode错误(可能是因为它正在解释压缩字节)有一个"compression"参数但是compression="gz"将不起作用并且到目前为止我找不到任何文档。使用pandas我可以直接读取文件,除了结果会破坏我的内存之外没有任何问题;-)但是如果我限制行数它工作正常。importpandas.Dataframeaspddf=pd.read_csv("Data.gz",ncols=100)

python - 如何读取包含在 gz 文件中的文件名

我尝试读取一个gz文件:withopen(os.path.join(storage_path,file),"rb")asgzipfile:withgzip.GzipFile(fileobj=gzipfile)asdatafile:data=datafile.read()它可以工作,但我需要包含在我的gz文件中的每个文件的文件名和大小。此代码将包含文件的内容打印到存档中。如何读取包含在这个gz文件中的文件名? 最佳答案 Pythongzip模块不提供对该信息的访问。源代码跳过它而不存储它:ifflag&FNAME:#Readanddi