我有一个应用程序可以定期读取大量 XML 文件(大约 20-30 个),比如每 10 分钟一次。现在每个 XML 文件的大小可以近似为至少 40-100 MB。一旦读取了每个 XML,就会从文件中创建一个映射,然后将映射传递给处理器链 (10-15),每个处理器使用数据、执行一些过滤器或写入数据库等。
现在应用程序在 32 位 JVM 中运行。现在无意迁移到 64 位 JVM。正如预期的那样,内存占用非常高……接近 32 位 JVM 的阈值。现在,当我们接收大文件时,我们将生成的映射序列化到磁盘中,并同时运行最多 3-4 个映射的处理器链,就好像我们试图同时处理所有映射一样,很容易出现内存不足。垃圾回收率也很高。
我有一些想法,但想看看是否有一些人们已经尝试/评估过的选项。那么,这里有哪些用于扩展此类应用程序的选项?
最佳答案
是的,模仿@aaray 和@MeBigFatGuy,您想为此使用一些基于事件的解析器,提到的 dom4j,或 SAX 或 StAX。
举个简单的例子,如果您批量加载 100MB 的 XML,它至少会消耗 200MB 的 RAM,因为每个字符都会立即扩展为 16 位字符。
接下来,您未使用的任何元素标签都会消耗额外的内存(加上节点的所有其他行李和簿记)并且全部浪费掉。如果您正在处理数字,如果数字大于 2 位数字,则将原始字符串转换为长字符串将是一个净赢。
如果(这是一个很大的如果)您正在使用大量相当小的字符串集,您可以通过 String.intern()'ing 来节省一些内存。这是一个规范化过程,可确保该字符串是否已存在于 jvm 中,并且是共享的。这样做的缺点是它会污染你的 permgen(一次实习,永远实习)。 PermGen 非常有限,但另一方面它几乎不受 GC 的影响。
您是否考虑过能够通过外部 XSLT 运行 XML,以在它进入您的 JVM 之前删除所有您不想处理的垃圾?有几个独立的命令行 XSL 处理器,您可以使用它们将文件预处理为可能更合理的文件。这实际上取决于您实际使用的数据量。
通过使用基于事件的 XML 处理模型,XSLT 步骤几乎是多余的。但是基于事件的模型基本上都不好用,所以也许使用 XSLT 步骤会让您重新使用一些现有的 DOM 逻辑(假设这就是您正在做的事情)。
您的内部结构越扁平,它们在内存方面的成本就越低。运行 32b 虚拟机实际上有一点优势,因为实例指针的大小只有它的一半。但是,当您谈论 1000 个或数百万个节点时,所有节点都会加起来,而且速度很快。
关于java - 缩放读取大型 XML 文件的应用程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7369135/
我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,
我需要在客户计算机上运行Ruby应用程序。通常需要几天才能完成(复制大备份文件)。问题是如果启用sleep,它会中断应用程序。否则,计算机将持续运行数周,直到我下次访问为止。有什么方法可以防止执行期间休眠并让Windows在执行后休眠吗?欢迎任何疯狂的想法;-) 最佳答案 Here建议使用SetThreadExecutionStateWinAPI函数,使应用程序能够通知系统它正在使用中,从而防止系统在应用程序运行时进入休眠状态或关闭显示。像这样的东西:require'Win32API'ES_AWAYMODE_REQUIRED=0x0
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题
对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta
我想用ruby编写一个小的命令行实用程序并将其作为gem分发。我知道安装后,Guard、Sass和Thor等某些gem可以从命令行自行运行。为了让gem像二进制文件一样可用,我需要在我的gemspec中指定什么。 最佳答案 Gem::Specification.newdo|s|...s.executable='name_of_executable'...endhttp://docs.rubygems.org/read/chapter/20 关于ruby-在Ruby中编写命令行实用程序