草庐IT

java - 在 Java 中将字符串压缩为 gzip

publicstaticStringcompressString(Stringstr)throwsIOException{if(str==null||str.length()==0){returnstr;}ByteArrayOutputStreamout=newByteArrayOutputStream();GZIPOutputStreamgzip=newGZIPOutputStream(out);gzip.write(str.getBytes());gzip.close();Gdx.files.local("gziptest.gzip").writeString(out.toStri

Spark中常用的压缩方法(python:Gzip、Snappy、LZO、Bzip2 )

Spark中常用的压缩方法有Gzip、Snappy、LZO、Bzip2等。一、压缩方法(python代码)下面以Python代码为例,介绍如何使用这些压缩方法。1.Gzip压缩方法#使用Gzip压缩方法压缩数据data=sc.parallelize(range(10)).map(str)data_gz=data.map(lambdax:(x,)).toDF(["value"]).write.format("gzip").mode("overwrite").save("data_gz")#使用Gzip压缩方法读取数据data_gz=spark.read.format("gzip").load("

java - 在 Java 中解压缩 GZip 字符串

我可以找到很多可以让您解压GZip文件的函数,但是我该如何解压GZip字符串呢?我正在尝试解析响应正文使用GZip压缩的HTTP响应。然而,整个响应只是存储在一个字符串中,因此部分字符串包含二进制字符。我正在尝试使用:byteresponseBodyBytes[]=responseBody.getBytes();ByteArrayInputStreambais=newByteArrayInputStream(responseBodyBytes);GZIPInputStreamgzis=newGZIPInputStream(bais);但这只是抛出一个异常:java.io.IOExcep

java - 在 Java 中使用 Zip 和 GZip 文件

自从我完成JavaI/O以来已经有一段时间了,而且我不知道使用Zip和GZip文件的最新“正确”方法。我不一定需要完整的工作演示-我主要是在寻找要使用的正确接口(interface)和方法。是的,我可以查找任何关于此的随机教程,但性能是一个问题(这些文件可能会变得非常大),我确实关心使用最好的工具来完成这项工作。我将实现的基本流程:将一堆文件(可能是压缩文件、gzip文件或两者)下载到临时文件夹。将所有提取的文件添加到临时文件夹中的新zip文件。输入文件可能会被多次压缩和归档。例如,“完全提取”应该采用以下任何输入(我无法控制这些),并留下foo.txt:foo.txt.gzfoo.t

java - 使用 gzip 压缩 InputStream

我想使用Gzip压缩在java中压缩输入流。假设我们有一个未压缩的输入流(1GB数据......)。结果我想要一个来自源的压缩输入流:publicInputStreamgetCompressedStream(InputStreamunCompressedStream){//Notworkingbecauseit'suncompressingthestream,Iwanttheopposite.returnnewGZIPInputStream(unCompressedStream);} 最佳答案 DeflaterInputStream

java - Hadoop gzip 压缩文件

我是hadoop的新手,正在尝试处理维基百科转储。这是一个6.7GB的gzip压缩xml文件。我读到hadoop支持gzip压缩文件,但只能由映射器在单个作业上处理,因为只有一个映射器可以解压缩它。这似乎限制了处理。有其他选择吗?比如将xml文件解压缩并拆分成多个block,然后使用gzip重新压缩它们。我从http://researchcomputing.blogspot.com/2008/04/hadoop-and-compressed-files.html读到关于hadoopgzip的信息感谢您的帮助。 最佳答案 由于此编解码

python - 如何聚合大于 RAM gzip 的 csv 文件的值?

对于初学者来说,我是生物信息学的新手,尤其是编程方面的新手,但我已经构建了一个脚本,它将通过所谓的VCF文件(仅包含个人,一个clumn=一个个人),并使用搜索字符串找出每个变体(系)个体是纯合子还是杂合子。此脚本至少在小的子集上有效,但我知道它将所有内容都存储在内存中。我想在非常大的压缩文件(甚至整个基因组)上执行此操作,但我不知道如何将此脚本转换为逐行执行所有操作的脚本(因为我想计算整列我只是不看看如何解决)。因此每个个体的输出是5个事物(总变异数、纯合子数、杂合子数以及纯​​合子和杂合子的比例)。请看下面的代码:#!usr/bin/envpythonimportreimportg

python - 在 Python 中编写仅追加 gzip 日志文件

我正在构建一项服务,用于记录来自多个来源(每个来源一个文件)的纯文本格式日志。我不打算轮换这些日志,因为它们必须永远存在。为了让这些永远围绕着文件变小,我希望我可以快速压缩它们。由于它们是日志数据,因此文件压缩得很好。在Python中编写仅附加gzip文本文件的好方法是什么,以便在服务打开和关闭时可以稍后恢复写入?我并不担心丢失几行,但如果gzip容器本身出现故障并且文件变得不可读,那就不行了。此外,如果不行,我可以简单地将它们写成纯文本而不用gzip压缩,如果这不值得麻烦的话。 最佳答案 注意:在unix系统上你应该认真考虑使用一

python - 如何使用 Python GZip 模块压缩文件夹?

我正在创建压缩文件/文件夹的Python软件...我将如何创建一段代码,要求用户输入文件夹位置,然后对其进行压缩。我目前有单个文件的代码,但没有一个充满文件的文件夹。请详细说明如何执行此操作。 最佳答案 将文件夹压缩为tar文件的代码是:importtarfiletar=tarfile.open("TarName.tar.gz","w:gz")tar.add("folder/location",arcname="TarName")tar.close()它对我有用。希望这对你也有用。 关于

Python教程:Gzip解压缩

我们将介绍Python中的gzip解压。我们还将介绍如何使用gzip解压来解压压缩的内容。Python中的Gzip解压在Python中为压缩和解压目的建立了许多库,但我们将介绍Gzip库。它是一个流行的数据压缩工具。我们可以使用gzip,通过对数据进行特殊格式的编码来减少文件的大小,这种格式不能被人类读取,也很难被压缩。我们可以使用gzip.decompress(),将一个字符串的压缩字节解压成一个原始字符串。在gzip,有两种数据压缩方法。我们将详细讨论这两种方法。第一种方法被称为反向压缩。它是哈夫曼编码的一种特殊类型,可以用来减少数据的大小。另一种方法是gzip解压,我们将在这个例子中使用