草庐IT

java - 在 Java 中使用 Zip 和 GZip 文件

自从我完成JavaI/O以来已经有一段时间了,而且我不知道使用Zip和GZip文件的最新“正确”方法。我不一定需要完整的工作演示-我主要是在寻找要使用的正确接口(interface)和方法。是的,我可以查找任何关于此的随机教程,但性能是一个问题(这些文件可能会变得非常大),我确实关心使用最好的工具来完成这项工作。我将实现的基本流程:将一堆文件(可能是压缩文件、gzip文件或两者)下载到临时文件夹。将所有提取的文件添加到临时文件夹中的新zip文件。输入文件可能会被多次压缩和归档。例如,“完全提取”应该采用以下任何输入(我无法控制这些),并留下foo.txt:foo.txt.gzfoo.t

java - 使用 gzip 压缩 InputStream

我想使用Gzip压缩在java中压缩输入流。假设我们有一个未压缩的输入流(1GB数据......)。结果我想要一个来自源的压缩输入流:publicInputStreamgetCompressedStream(InputStreamunCompressedStream){//Notworkingbecauseit'suncompressingthestream,Iwanttheopposite.returnnewGZIPInputStream(unCompressedStream);} 最佳答案 DeflaterInputStream

java - 在 Java 中强制刷新 GZIPOutputStream

我们正在开发一个需要刷新(强制压缩和发送数据)GZIPOutputStream的程序。问题是,GZIPOutputStream的flush方法没有按预期工作(强制压缩和发送数据),而是Stream等待更多数据以进行有效的数据压缩。当您调用finish时,数据被压缩并通过输出流发送,但GZIPOutputStream(不是底层流)将被关闭,因此我们无法写入更多数据,直到我们创建一个新的GZIPOutputStream,这会消耗时间和性能。希望任何人都可以帮助解决这个问题。最好的问候。 最佳答案 我还没有尝试过这个,在我们拥有Java7

java - Hadoop gzip 压缩文件

我是hadoop的新手,正在尝试处理维基百科转储。这是一个6.7GB的gzip压缩xml文件。我读到hadoop支持gzip压缩文件,但只能由映射器在单个作业上处理,因为只有一个映射器可以解压缩它。这似乎限制了处理。有其他选择吗?比如将xml文件解压缩并拆分成多个block,然后使用gzip重新压缩它们。我从http://researchcomputing.blogspot.com/2008/04/hadoop-and-compressed-files.html读到关于hadoopgzip的信息感谢您的帮助。 最佳答案 由于此编解码

python - 如何聚合大于 RAM gzip 的 csv 文件的值?

对于初学者来说,我是生物信息学的新手,尤其是编程方面的新手,但我已经构建了一个脚本,它将通过所谓的VCF文件(仅包含个人,一个clumn=一个个人),并使用搜索字符串找出每个变体(系)个体是纯合子还是杂合子。此脚本至少在小的子集上有效,但我知道它将所有内容都存储在内存中。我想在非常大的压缩文件(甚至整个基因组)上执行此操作,但我不知道如何将此脚本转换为逐行执行所有操作的脚本(因为我想计算整列我只是不看看如何解决)。因此每个个体的输出是5个事物(总变异数、纯合子数、杂合子数以及纯​​合子和杂合子的比例)。请看下面的代码:#!usr/bin/envpythonimportreimportg

python - 在 Python 中编写仅追加 gzip 日志文件

我正在构建一项服务,用于记录来自多个来源(每个来源一个文件)的纯文本格式日志。我不打算轮换这些日志,因为它们必须永远存在。为了让这些永远围绕着文件变小,我希望我可以快速压缩它们。由于它们是日志数据,因此文件压缩得很好。在Python中编写仅附加gzip文本文件的好方法是什么,以便在服务打开和关闭时可以稍后恢复写入?我并不担心丢失几行,但如果gzip容器本身出现故障并且文件变得不可读,那就不行了。此外,如果不行,我可以简单地将它们写成纯文本而不用gzip压缩,如果这不值得麻烦的话。 最佳答案 注意:在unix系统上你应该认真考虑使用一

Python 2.5.2-代替 'with' 语句的是什么

我为python2.7编写代码,但服务器有2.5。我如何重写下一段代码以便它在python2.5.2中运行:gzipHandler=gzip.open(gzipFile)try:withopen(txtFile,'w')asout:forlineingzipHandler:out.write(line)except:pass现在,当我尝试运行脚本时出现此错误:Warning:'with'willbecomeareservedkeywordinPython2.6Traceback(mostrecentcalllast):File"Main.py",line7,infromExtracto

python - 如何使用 Python GZip 模块压缩文件夹?

我正在创建压缩文件/文件夹的Python软件...我将如何创建一段代码,要求用户输入文件夹位置,然后对其进行压缩。我目前有单个文件的代码,但没有一个充满文件的文件夹。请详细说明如何执行此操作。 最佳答案 将文件夹压缩为tar文件的代码是:importtarfiletar=tarfile.open("TarName.tar.gz","w:gz")tar.add("folder/location",arcname="TarName")tar.close()它对我有用。希望这对你也有用。 关于

python - 我可以用 Pandas 附加到压缩流吗?

我知道通过将compression='gzip'参数传递给pd.to_csv()我可以将DataFrame保存到压缩的CSV文件中。my_df.to_csv('my_file_name.csv',compression='gzip')我也知道,如果我想附加一个DataFrame到现有CSV文件的末尾,我可以使用mode='a',就像这样my_df.to_csv('my_file_name.csv',mode='a',index=False)但是,如果我想将DataFrame附加到压缩的CSV文件的末尾怎么办?这可能吗?我试着这样做my_df.to_csv('my_file_name.c

Python教程:Gzip解压缩

我们将介绍Python中的gzip解压。我们还将介绍如何使用gzip解压来解压压缩的内容。Python中的Gzip解压在Python中为压缩和解压目的建立了许多库,但我们将介绍Gzip库。它是一个流行的数据压缩工具。我们可以使用gzip,通过对数据进行特殊格式的编码来减少文件的大小,这种格式不能被人类读取,也很难被压缩。我们可以使用gzip.decompress(),将一个字符串的压缩字节解压成一个原始字符串。在gzip,有两种数据压缩方法。我们将详细讨论这两种方法。第一种方法被称为反向压缩。它是哈夫曼编码的一种特殊类型,可以用来减少数据的大小。另一种方法是gzip解压,我们将在这个例子中使用