草庐IT

java - 在 30GB XML 数据集上搜索正则表达式模式。使用16GB内存

我目前有一个JavaSAX解析器,它正在从一个30GB的XML文件中提取一些信息。目前是:读取每个XML节点将其存储到一个字符串对象中,在字符串上运行一些正则表达式将结果存入数据库对于数百万个元素。我在具有16GB内存的计算机上运行它,但内存没有得到充分利用。有没有一种简单的方法可以从输入文件中动态“缓冲”大约10gb的数据?我怀疑我可以手动采用“生产者”“消费者”多线程版本(在一侧加载对象,使用它们并在另一侧丢弃),但是该死的,XML现在很古老,没有有效的库吗紧缩他们? 最佳答案 简单说一下,Java可以使用您的16GB内存吗?您

c# - 努力估计 : using C/Win32 or learning C#/. NET

我打算编写一个小应用程序来解决个人的痛处,并可能让一些同事的生活更轻松。这是我所拥有的:10年以上C语言经验从Win3.1到2000天,在使用C语言针对Win16/32API进行编程方面拥有丰富的经验。我自己编写的C库已经完成了应用程序应完成的大约75%。应用程序应该做什么:打开二进制文件,将其输入上述库。获取生成的文本输出并将其输入到新的Excel工作簿中。应用一些格式。与Windows环境很好地集成(在“打开方式...”中可用,记住一些使用注册表等的东西)(可能稍后)在将CSV数据提供给Excel之前,通过在XML文件中查找某些值的含义来解析它。除了XML解析部分外,在将COM/O

html - XSLT 是否值得投入时间,是否有任何实际的替代方案?

我知道还有一些关于这个主题的其他问题,普遍的共识是使用您选择的语言来操作XML。但是,这个解决方案不太适合我的情况。一、项目范围:我们想开发平台独立的电子学习,目前,它是一堆HTML页面,但随着它们的成长和发展,它们变得难以维护。我们已经有大约30个模块,每个模块有10-30个HTML页面,而且这个数字一直在增长。想法:有一个XML文件+模式预电子学习模块,然后生成一些XSLT文件,将XML处理到电子学习模块中。通过XSLT将XML转换为HTML。为什么:我们希望能够灵活地重新格式化内容我意识到CSS在这里是一个可行的替代方案,尤其是在视觉上改变外观,但我们可能需要比这更强大的功能,甚

xml - SSIS XMl 处理

在我的工作中,我需要大量导入(产品)数据。最近我们开始使用SSIS,它肯定比自定义.net导入工具更好用。在3个项目之后,我们仍然发现使用带有c#xpath和sql语句的脚本任务比使用XML源和数据流中的合并连接更有效。数据流问题有时xml无法从变量中读取过于依赖XML的固定定义(需要知道xsd)当定义改变时,整体需要改变对特定类型的处理;UINT和INT不一样不像C#代码那样易于调试和单步执行谁能分享他们的SSISXML导入故事 最佳答案 我在SQLServer中“一直”使用XML,主要是我的一些项目中的导入功能。由于XML结构的

xml - WCF:序列化?流媒体?

我需要了解WCF在发送消息时是如何工作的。WCF在发送之前是否序列化所有内容?我的另一个问题是使用Streaming有什么好处?更大的消息是否更好,比如说1Mb到2Mb?我可以发送一个序列化的复杂对象,然后能够在流式传输后轻松地在另一端反序列化它吗(复杂对象我的意思是一个可以动态的图像列表),或者我是否需要使用XML之类的东西来格式化它?这里的主要问题是,我不知道在使用WFC流式处理时,我是否需要在发送之前先序列化消息...难道WFC不应该在发送之前序列化所有内容吗?我知道的很笼统,但我需要弄清楚这些概念。干杯 最佳答案 是的,除了

java - 在java中将大量文件排序成分层树结构

我有大量文件(几千个XML文件),我需要用Java编写一个GUI,根据每个文件的XML数据中的“类别”元素将这些文件分类为树结构。该程序可能一天运行多次,并且每天也可能对这些文件进行小的更改/添加。我怎样才能以最小化应用程序后续执行期间的加载时间的方式保存这个排序结构?这个程序将-不幸的是-处理USB硬盘驱动器上的文件,因此我我试图避免每次运行应用程序时都解析每个XML文档以构建此树。例如,每个XML文件可能有多个属性(即“Person”的值为“Fred”,“Organization”的值为“Google”),我希望允许用户选择GUI中基于这些类别值的文件组。预先感谢您提供的所有帮助=

xml - 用于 (x)html 的 perl xml::libxml dom 解析器的一组有用的食谱示例?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion一些用于xml的更简单的perldom解析器的作者似乎不鼓励他们使用混合内容以支持XML::LibXML。所以我现在开始学习XML::LibXML并正在寻找常用的食谱示例。考虑从网络上读取(x)html文档并对其进行操作。(perlco

java - 支持 MOXy @XmlPath 表达式吗?

MOXy是否支持如下所示的XPath表达式?field[XMLtag!='identifier']基本上我有这样的XML12345identifiersomenamename我正在尝试获取一个列表来填充但排除用于标识符的字段。这会起作用,但会为我提供List中的所有字段元素(2)(正确)@XmlElement(name="field")publicListfieldList;这不会,我得到一个空的List@XmlPath("field[XMLtag!='identifier']")publicListfieldList;上面的方法应该有效,还是MOXy不支持这样的表达式?我似乎找不到关

sql-server - 工作流网站 - 后端设计建议

背景:我开始构建/设计一个新网站,该网站将跟踪大量项目的工作流程。每个项目都有分配给它们的阶段(规划、实现、实现后、结束等...)。每个阶段包含不同的任务等。有些人可能会问,“这听起来与其他已经存在的工作流管理软件(WMS)非常相似,为什么不使用它呢?”除了该站点像其他WMS工具一样跟踪每个阶段之外,它还需要直接从页面直接与其他系统(不同域)和软件(API/WMI)交互。它将允许我们的管理员维护ActiveDirectoryGPO,确保使用正确的设置正确初始化新计算机,监控远程计算机上的SQL数据库保真度等等。对于那些认为这对问题很重要的人...我目前正计划使用.NET构建网站。众所周

ruby - 是否有用于 Ruby(如 JAXB)的 XML 绑定(bind)库?

Ruby是否有任何工具可以将XML(SOAP)转换为对象,反之亦然?如果可能,从XML模式(XSD)生成所有对象(模型)。我曾多次使用JAXB工具(Java语言),我需要类似的东西:从XML模式生成模型轻松创建用于序列化和反序列化的组件轻松创建用于将对象存储到数据库的组件如果可能,根据该模式生成数据库表你知道这方面的工具吗?您会推荐什么方法来完成这样的任务?感谢您的回答。 最佳答案 Savon应该涵盖其中的SOAP部分。 关于ruby-是否有用于Ruby(如JAXB)的XML绑定(bin