草庐IT

c# - 将文件添加到现有Zip中-性能问题

coder 2024-05-19 原文

我有一个WCF Web服务,可将文件保存到文件夹(大约200,000个小文件)。
之后,我需要将它们移至另一台服务器。

我发现的解决方案是将它们压缩然后移动。

当我采用此解决方案时,我使用了20,000个文件进行了测试,压缩20,000个文件仅花费了大约2分钟的时间,并且移动zip确实非常快。
但是在生产中,压缩200,000个文件需要2个多小时。

这是我压缩文件夹的代码:

using (ZipFile zipFile = new ZipFile())
{
    zipFile.UseZip64WhenSaving = Zip64Option.Always;
    zipFile.CompressionLevel = CompressionLevel.None;
    zipFile.AddDirectory(this.SourceDirectory.FullName, string.Empty);

    zipFile.Save(DestinationCurrentFileInfo.FullName);
}

我想修改WCF Web服务,以便将其保存到zip而不是保存到文件夹。

我使用以下代码进行测试:
var listAes = Directory.EnumerateFiles(myFolder, "*.*", SearchOption.AllDirectories).Where(s => s.EndsWith(".aes")).Select(f => new FileInfo(f));

foreach (var additionFile in listAes)
{
    using (var zip = ZipFile.Read(nameOfExistingZip))
    {
        zip.CompressionLevel = Ionic.Zlib.CompressionLevel.None;
        zip.AddFile(additionFile.FullName);

        zip.Save();
    }

    file.WriteLine("Delay for adding a file  : " + sw.Elapsed.TotalMilliseconds);
    sw.Restart();
}

第一个要添加到zip文件中的文件只需要5毫秒,而第10,000个要添加到zip文件中的文件则需要800毫秒。

有没有办法对此进行优化?或者,如果您还有其他建议?

编辑

上面显示的示例仅用于测试,在WCF Web服务中,我将有不同的请求发送文件,这些文件需要添加到Zip文件中。
由于WCF是无状态的,因此每次调用都会有一个新的类实例,那么如何保持Zip文件打开以添加更多文件?

最佳答案

我查看了您的代码并立即发现问题。如今,许多软件开发人员的问题在于,他们如今不了解东西的工作原理,因此无法对此进行推理。在这种情况下,您似乎不知道ZIP文件是如何工作的。因此,我建议您首先read up on how they work并尝试分解幕后发生的事情。

推理

现在我们都在同一页上讨论它们的工作方式,让我们通过使用源代码分解工作原理来开始推理。我们将从那里继续前进:

var listAes = Directory.EnumerateFiles(myFolder, "*.*", SearchOption.AllDirectories).Where(s => s.EndsWith(".aes")).Select(f => new FileInfo(f));

foreach (var additionFile in listAes)
{
    // (1)
    using (var zip = ZipFile.Read(nameOfExistingZip))
    {
        zip.CompressionLevel = Ionic.Zlib.CompressionLevel.None;
        // (2)
        zip.AddFile(additionFile.FullName);

        // (3)
        zip.Save();
    }

    file.WriteLine("Delay for adding a file  : " + sw.Elapsed.TotalMilliseconds);
    sw.Restart();
}
  • (1)打开一个ZIP文件。您正在为尝试添加
  • 的每个文件执行此操作
  • (2)将单个文件添加到ZIP文件
  • (3)保存完整的ZIP文件

  • 在我的计算机上,这大约需要一个小时。

    现在,并非所有文件格式细节都相关。我们正在寻找会在您的程序中变得越来越糟的东西。

    浏览文件格式规范时,您会注意到压缩基于Deflate,而Deflate不需要有关其他压缩文件的信息。继续,我们将注意到“文件表”如何存储在ZIP文件中:

    您会在这里注意到有一个“中央目录”,用于将文件存储在ZIP文件中。它基本上存储为“列表”。因此,使用此信息,我们可以推断出按此顺序实现步骤(1-3)时更新该琐事的简单方法:
  • 打开zip文件,读取中央目录
  • 附加(新)压缩文件的数据,将指针以及文件名存储在新的中央目录中。
  • 重写中央目录。

  • 考虑一下,对于文件1,您需要执行1次写入操作;对于文件2,您需要读取(1个项目),追加(在内存中)和写入(2个项目);对于文件3,您需要读取(2个项目),追加(在内存中)和写入(3个项目)。等等。这基本上意味着,如果您添加更多文件,那么您所需要的将会降低效率。您已经观察到了这一点,现在您知道为什么了。

    可能的解决方案

    在先前的解决方案中,我一次添加了所有文件。在您的用例中,这可能不起作用。另一种解决方案是实现一次合并,该合并基本上每次都将2个文件合并在一起。如果在开始压缩过程时没有所有可用文件,这将更加方便。

    基本上,该算法将变为:
  • 添加一些文件(例如16个文件)。你可以用这个号码玩。将此存储在-say-'file16.zip'中。
  • 添加更多文件。当您命中16个文件时,您必须将16个项目的两个文件合并为32个项目的单个文件。
  • 合并文件,直到无法合并为止。基本上,每当您有两个N个项目的文件时,就创建一个2 * N个项目的新文件。
  • 转到(2)。

  • 同样,我们可以对此进行推理。前16个文件没问题,我们已经确定了。

    我们还可以推断程序中会发生什么。因为我们将2个文件合并为1个文件,所以我们不必进行多次读写操作。实际上,如果您对此进行了推理,您将看到文件包含2个合并中的32个条目,4个合并中的64个,8个合并中的128个,16个合并中的256个...嘿,等等,我们知道这个顺序,这是2^N。再次,据此推理,我们将发现大约需要进行500次合并-比开始时进行的200.000次操作要好得多。

    压缩ZIP文件

    可能想到的另一种解决方案是对中央目录进行整体化处理,从而为以后的条目添加添加空间。但是,这可能需要您侵入邮政编码并创建自己的ZIP文件编写器。这样做的想法是,在开始之前,您基本上将中央目录归类为200K条目,因此您可以简单地就地附加。

    同样,我们可以对此进行推理:现在添加文件意味着:添加文件并更新一些 header 。它不会像原始解决方案那样快,因为您需要随机磁盘IO,但它可能足够快地工作。

    我还没有解决这个问题,但是对我来说似乎并不太复杂。

    最简单的解决方案是最实用的

    到目前为止,我们尚未讨论的是最简单的解决方案:想到的一种方法是一次简单地添加所有文件,我们可以再次进行推理。

    实现非常容易,因为现在我们不必做任何花哨的事情了。我们可以按原样使用ZIP处理程序(我使用 ionic 处理程序):
    static void Main()
    {
        try { File.Delete(@"c:\tmp\test.zip"); }
        catch { }
    
        var sw = Stopwatch.StartNew();
    
        using (var zip = new ZipFile(@"c:\tmp\test.zip"))
        {
            zip.UseZip64WhenSaving = Zip64Option.Always;
            for (int i = 0; i < 200000; ++i)
            {
                string filename = "foo" + i.ToString() + ".txt";
                byte[] contents = Encoding.UTF8.GetBytes("Hello world!");
                zip.CompressionLevel = Ionic.Zlib.CompressionLevel.None;
                zip.AddEntry(filename, contents);
            }
    
            zip.Save();
        }
    
        Console.WriteLine("Elapsed: {0:0.00}s", sw.Elapsed.TotalSeconds);
        Console.ReadLine();
    }
    

    哇在4.5秒内完成。好多了。

    关于c# - 将文件添加到现有Zip中-性能问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30222932/

    有关c# - 将文件添加到现有Zip中-性能问题的更多相关文章

    1. ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2

      我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看ruby​​zip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d

    2. ruby - 其他文件中的 Rake 任务 - 2

      我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时

    3. ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2

      我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,

    4. ruby - 我需要将 Bundler 本身添加到 Gemfile 中吗? - 2

      当我使用Bundler时,是否需要在我的Gemfile中将其列为依赖项?毕竟,我的代码中有些地方需要它。例如,当我进行Bundler设置时:require"bundler/setup" 最佳答案 没有。您可以尝试,但首先您必须用鞋带将自己抬离地面。 关于ruby-我需要将Bundler本身添加到Gemfile中吗?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/4758609/

    5. ruby-on-rails - Rails 3 中的多个路由文件 - 2

      Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题

    6. ruby - 将差异补丁应用于字符串/文件 - 2

      对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl

    7. ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2

      我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库,所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po

    8. ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2

      我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

    9. ruby - 通过 rvm 升级 ruby​​gems 的问题 - 2

      尝试通过RVM将RubyGems升级到版本1.8.10并出现此错误:$rvmrubygemslatestRemovingoldRubygemsfiles...Installingrubygems-1.8.10forruby-1.9.2-p180...ERROR:Errorrunning'GEM_PATH="/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/ruby-1.9.2-p180@global:/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/rub

    10. ruby - 使用 Vim Rails,您可以创建一个新的迁移文件并一次性打开它吗? - 2

      使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta

    随机推荐