超大型_草庐IT

ruby - Nokogiri::XML::Reader - 处理大型 XML 文件并跳过不感兴趣的节点

我有一些格式如下所示的xml，我正在尝试使用Nokogiri::XML::Reader进行解析，因为文件大小非常大(~1GB)。该文件有很多packets以下格式。来自每个packet我需要收集frame.time_epoch,s1ap.procedureCode.我目前正在做以下事情。data=[]file=`some_file.xml`reader=Nokogiri::XML::Reader(File.open(file))reader.eachdo|node|if(node.name=='packet'&&node.node_type==Nokogiri::XML::Reader

java - 通过网络解析大型 XML 文件

我在网站上进行了一些快速搜索，但似乎无法找到我正在寻找的答案，所以说，通过网络传递大型xml文件的一些最佳实践是什么。我对此事的想法是在可管理的段中通过网络流式传输block，但是我正在为此寻找其他方法和最佳实践。我知道大是一个相对术语，所以我会让你选择一个任意值来考虑大。如果有任何混淆，问题是“跨网络发送大型xml文件的一些最佳实践是什么？”编辑:我看到很多关于压缩的讨论，是否可以使用任何特定的压缩算法以及解压缩所述文件？当我知道那里有经过验证的算法时，我不太想自己动手。我也很感谢到目前为止的回复。最佳答案十多年来，压缩和减小

java - 如何在 Java 中有效地读取包含大量小项目的大型 XML 文件？

我有一个很大的XML文件，其中包含相对固定大小的项目，即.........item元素相对较浅且通常很小(如何在Java中高效地处理文件？我无法以DOM形式读取整个文件，而且我不喜欢使用SAX，因为代码变得相当复杂。我想避免将文件拆分成更小的部分。如果我可以获取每个item元素，则最佳情况是一次一个，作为一个单独的DOM文档，我可以使用JAXB等工具进行处理。基本上我只想在所有项目上循环一次。我认为这是一个相当普遍的问题。最佳答案 Java6有一个StAXsupport.它执行像SAX一样的流处理，但使用基于拉的方法，这导致更简单

java - 缩放读取大型 XML 文件的应用程序

我有一个应用程序可以定期读取大量XML文件(大约20-30个)，比如每10分钟一次。现在每个XML文件的大小可以近似为至少40-100MB。一旦读取了每个XML，就会从文件中创建一个映射，然后将映射传递给处理器链(10-15)，每个处理器使用数据、执行一些过滤器或写入数据库等。现在应用程序在32位JVM中运行。现在无意迁移到64位JVM。正如预期的那样，内存占用非常高……接近32位JVM的阈值。现在，当我们接收大文件时，我们将生成的映射序列化到磁盘中，并同时运行最多3-4个映射的处理器链，就好像我们试图同时处理所有映射一样，很容易出现内存不足。垃圾回收率也很高。我有一些想法，但想看看是

java - 编辑大型 xml 文件 'on the fly'

我有一个xml文件存储在数据库blob中，用户将通过spring/hibernateweb应用程序下载该文件。在通过Hibernate作为byte[]检索它之后，但在将其发送到输出流之前，我需要编辑XML的某些部分(具有两个子节点和一个属性的单个节点)。我担心的是，如果文件较大(有些超过40mb)，那么我真的不想通过将整个文件放在内存中、对其进行编辑然后通过输出流将其传递给用户来执行此操作。有没有办法“即时”编辑它？byte[]b=blobRepository.get(blobID).getFile();//WhatcanIdohere?ServletOutputStreamout=r

xml - 对于来自网络的大型 XML 消息，我应该使用哪种 postgres 数据类型？

我有传入的xml，它可能有5M大，我需要用postgres9.1存储它。我应该使用哪种数据类型？byteacharactervaryingtext还是别的什么？顺便说一句，xml本身包含一些base64格式的二进制数据，这对在postgres中选择数据类型有什么影响吗？感谢最佳答案你有两个选择:VARCHAR或TEXT。它将允许您从DB存储和检索XML文件。但仅此而已。XML。将允许您存储、检索、验证、编辑、搜索……XML文件，但可能(或可能不)涉及将文件存储到数据库的一些开销。根本没有理由将XML文件存储为BYTEA。5MB大

c# - 使用 C# XmlSerializer 为大型对象集写入 block 以避免内存不足

我喜欢XmlSerialize的工作方式，它简单优雅且具有属性=p但是，在序列化为xml文件之前构建所有对象的集合时，我遇到了内存不足问题。我正在从SQL数据库填充一个对象，并打算使用XmlSerialize将该对象写出到XML。它适用于小子集，但如果我尝试从数据库中获取所有对象，我会遇到内存不足异常。XmlSerialize是否有某种能力允许我从数据库中获取一批100个对象，然后写入它们，获取下一批100个对象并附加到xml？我希望我不必闯入XmlDocument或需要更多手动编码工作的东西... 最佳答案 XmlSerializ

c# - 来自另一个大型 XML 文件的新 XML 文件，使用未知元素更改内部数据

我有一个非常大(~1GB)的XML文件。我需要解析它，找到特定的节点，更改这些节点中的数据，然后将其全部写入一个新的XML文件。这里有一个要点——有很多我不关心的元素——我什至不知道它们都是什么——但它们也需要被复制。This所以帖子建议我使用XmlReader，这样我就不必将整个输入文件加载到内存中。那个问题有this建议使用ReadToDescendant方法的答案。这几乎可以满足我的需要，但问题是我丢失了我“读取到”的节点之前的所有XML。我需要以某种方式将我刚刚阅读的所有内容复制到新文件中。我不在乎那里有什么，只需要逐字复制即可。This所以post会工作(还有其他几个类似的)

c# - 数据集中的大型 XML 文件(内存不足)

我目前正在尝试将一个稍大的xml文件加载到数据集中。xml文件大约有700MB，每次我尝试读取xml时都需要大量时间，一段时间后它会抛出“内存不足”异常。DataSetds=newDataSet();ds.ReadXml(pathtofile);主要问题是，我有必要使用这些数据集(我用它来将数据从xml文件导入到sybase数据库(foreach表、foreach行、foreach列))并且我没有方案文件。我已经用谷歌搜索了一段时间，但我只找到了对我来说不可用的解决方案。附加信息:我使用Sybase(ASA9)数据库，但我的C#应用程序在处理数据库之前崩溃了。在我将XML读入数据集并希

xml - PowerShell 在读取大型 (50 MB) XML 文档时抛出 System.OutOfMemoryException

我们正在运行以下脚本:[xml]$products=获取内容C:\fso\products.xml并收到以下错误:System.OutOfMemoryException我们假设这是因为XML文件很大。解决方案可能涉及一次读取XML一行。我们如何处理这个文件？例如，我们如何计算元素的数量？或者，我们如何将元素名称打印到控制台窗口？我们目前正在查看此链接:http://blogs.technet.com/b/stephap/archive/2009/05/27/choking-on-very-large-xml-files.aspxXML结构如下:0000000000001BASICS$1