c# - 将文件添加到现有Zip中-性能问题

coder 2024-05-19 原文

我有一个WCF Web服务，可将文件保存到文件夹(大约200,000个小文件)。
之后，我需要将它们移至另一台服务器。

我发现的解决方案是将它们压缩然后移动。

当我采用此解决方案时，我使用了20,000个文件进行了测试，压缩20,000个文件仅花费了大约2分钟的时间，并且移动zip确实非常快。
但是在生产中，压缩200,000个文件需要2个多小时。

这是我压缩文件夹的代码:

using (ZipFile zipFile = new ZipFile())
{
    zipFile.UseZip64WhenSaving = Zip64Option.Always;
    zipFile.CompressionLevel = CompressionLevel.None;
    zipFile.AddDirectory(this.SourceDirectory.FullName, string.Empty);

    zipFile.Save(DestinationCurrentFileInfo.FullName);
}

我想修改WCF Web服务，以便将其保存到zip而不是保存到文件夹。

我使用以下代码进行测试:

var listAes = Directory.EnumerateFiles(myFolder, "*.*", SearchOption.AllDirectories).Where(s => s.EndsWith(".aes")).Select(f => new FileInfo(f));

foreach (var additionFile in listAes)
{
    using (var zip = ZipFile.Read(nameOfExistingZip))
    {
        zip.CompressionLevel = Ionic.Zlib.CompressionLevel.None;
        zip.AddFile(additionFile.FullName);

        zip.Save();
    }

    file.WriteLine("Delay for adding a file  : " + sw.Elapsed.TotalMilliseconds);
    sw.Restart();
}

第一个要添加到zip文件中的文件只需要5毫秒，而第10,000个要添加到zip文件中的文件则需要800毫秒。

有没有办法对此进行优化？或者，如果您还有其他建议？

编辑

上面显示的示例仅用于测试，在WCF Web服务中，我将有不同的请求发送文件，这些文件需要添加到Zip文件中。
由于WCF是无状态的，因此每次调用都会有一个新的类实例，那么如何保持Zip文件打开以添加更多文件？

最佳答案

我查看了您的代码并立即发现问题。如今，许多软件开发人员的问题在于，他们如今不了解东西的工作原理，因此无法对此进行推理。在这种情况下，您似乎不知道ZIP文件是如何工作的。因此，我建议您首先read up on how they work并尝试分解幕后发生的事情。

推理

现在我们都在同一页上讨论它们的工作方式，让我们通过使用源代码分解工作原理来开始推理。我们将从那里继续前进:

var listAes = Directory.EnumerateFiles(myFolder, "*.*", SearchOption.AllDirectories).Where(s => s.EndsWith(".aes")).Select(f => new FileInfo(f));

foreach (var additionFile in listAes)
{
    // (1)
    using (var zip = ZipFile.Read(nameOfExistingZip))
    {
        zip.CompressionLevel = Ionic.Zlib.CompressionLevel.None;
        // (2)
        zip.AddFile(additionFile.FullName);

        // (3)
        zip.Save();
    }

    file.WriteLine("Delay for adding a file  : " + sw.Elapsed.TotalMilliseconds);
    sw.Restart();
}

(1)打开一个ZIP文件。您正在为尝试添加

的每个文件执行此操作

(2)将单个文件添加到ZIP文件

(3)保存完整的ZIP文件

在我的计算机上，这大约需要一个小时。

现在，并非所有文件格式细节都相关。我们正在寻找会在您的程序中变得越来越糟的东西。

浏览文件格式规范时，您会注意到压缩基于Deflate，而Deflate不需要有关其他压缩文件的信息。继续，我们将注意到“文件表”如何存储在ZIP文件中:

您会在这里注意到有一个“中央目录”，用于将文件存储在ZIP文件中。它基本上存储为“列表”。因此，使用此信息，我们可以推断出按此顺序实现步骤(1-3)时更新该琐事的简单方法:

打开zip文件，读取中央目录

附加(新)压缩文件的数据，将指针以及文件名存储在新的中央目录中。

重写中央目录。

考虑一下，对于文件1，您需要执行1次写入操作；对于文件2，您需要读取(1个项目)，追加(在内存中)和写入(2个项目)；对于文件3，您需要读取(2个项目)，追加(在内存中)和写入(3个项目)。等等。这基本上意味着，如果您添加更多文件，那么您所需要的将会降低效率。您已经观察到了这一点，现在您知道为什么了。

可能的解决方案

在先前的解决方案中，我一次添加了所有文件。在您的用例中，这可能不起作用。另一种解决方案是实现一次合并，该合并基本上每次都将2个文件合并在一起。如果在开始压缩过程时没有所有可用文件，这将更加方便。

基本上，该算法将变为:
添加一些文件(例如16个文件)。你可以用这个号码玩。将此存储在-say-'file16.zip'中。
添加更多文件。当您命中16个文件时，您必须将16个项目的两个文件合并为32个项目的单个文件。
合并文件，直到无法合并为止。基本上，每当您有两个N个项目的文件时，就创建一个2 * N个项目的新文件。
转到(2)。

同样，我们可以对此进行推理。前16个文件没问题，我们已经确定了。

我们还可以推断程序中会发生什么。因为我们将2个文件合并为1个文件，所以我们不必进行多次读写操作。实际上，如果您对此进行了推理，您将看到文件包含2个合并中的32个条目，4个合并中的64个，8个合并中的128个，16个合并中的256个...嘿，等等，我们知道这个顺序，这是2^N。再次，据此推理，我们将发现大约需要进行500次合并-比开始时进行的200.000次操作要好得多。

压缩ZIP文件

可能想到的另一种解决方案是对中央目录进行整体化处理，从而为以后的条目添加添加空间。但是，这可能需要您侵入邮政编码并创建自己的ZIP文件编写器。这样做的想法是，在开始之前，您基本上将中央目录归类为200K条目，因此您可以简单地就地附加。

同样，我们可以对此进行推理:现在添加文件意味着:添加文件并更新一些 header 。它不会像原始解决方案那样快，因为您需要随机磁盘IO，但它可能足够快地工作。

我还没有解决这个问题，但是对我来说似乎并不太复杂。

最简单的解决方案是最实用的

到目前为止，我们尚未讨论的是最简单的解决方案:想到的一种方法是一次简单地添加所有文件，我们可以再次进行推理。

实现非常容易，因为现在我们不必做任何花哨的事情了。我们可以按原样使用ZIP处理程序(我使用 ionic 处理程序):
static void Main() { try { File.Delete(@"c:\tmp\test.zip"); } catch { } var sw = Stopwatch.StartNew(); using (var zip = new ZipFile(@"c:\tmp\test.zip")) { zip.UseZip64WhenSaving = Zip64Option.Always; for (int i = 0; i < 200000; ++i) { string filename = "foo" + i.ToString() + ".txt"; byte[] contents = Encoding.UTF8.GetBytes("Hello world!"); zip.CompressionLevel = Ionic.Zlib.CompressionLevel.None; zip.AddEntry(filename, contents); } zip.Save(); } Console.WriteLine("Elapsed: {0:0.00}s", sw.Elapsed.TotalSeconds); Console.ReadLine(); }

哇在4.5秒内完成。好多了。

关于c# - 将文件添加到现有Zip中-性能问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30222932/

c#Zip br strong performance wcf dotnetzip

有关c# - 将文件添加到现有Zip中-性能问题的更多相关文章

ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2
我的目标是转换表单输入，例如“100兆字节”或“1GB”，并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前，我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效，但前提是输入是倍数(“gigabytes”，而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以，功能正常，
ruby - 我需要将 Bundler 本身添加到 Gemfile 中吗？ - 2
当我使用Bundler时，是否需要在我的Gemfile中将其列为依赖项？毕竟，我的代码中有些地方需要它。例如，当我进行Bundler设置时:require"bundler/setup" 最佳答案没有。您可以尝试，但首先您必须用鞋带将自己抬离地面。关于ruby-我需要将Bundler本身添加到Gemfile中吗？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/4758609/
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby - 将差异补丁应用于字符串/文件 - 2
对于具有离线功能的智能手机应用程序，我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2
我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库，所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po
ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
ruby - 通过 rvm 升级 rubygems 的问题 - 2
尝试通过RVM将RubyGems升级到版本1.8.10并出现此错误:$rvmrubygemslatestRemovingoldRubygemsfiles...Installingrubygems-1.8.10forruby-1.9.2-p180...ERROR:Errorrunning'GEM_PATH="/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/ruby-1.9.2-p180@global:/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/rub
ruby - 使用 Vim Rails，您可以创建一个新的迁移文件并一次性打开它吗？ - 2
使用带有Rails插件的vim，您可以创建一个迁移文件，然后一次性打开该文件吗？textmate也可以这样吗？最佳答案你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件，这正是您想要的。我不能代表textmate。关于ruby-使用VimRails，您可以创建一个新的迁移文件并一次性打开它吗？，我们在StackOverflow上找到一个类似的问题： https://sta

c# - 将文件添加到现有Zip中-性能问题

有关c# - 将文件添加到现有Zip中-性能问题的更多相关文章

随机推荐