草庐IT

spark-streaming-kafka

全部标签

java - 如何将大型 XML 文件转换为 stream-like-java 8 对象

你好,我有一个(非常)大的XML文件(100GB),其中包含一个foo列表,我想将它转换成一个流,就像它们引入对象的java8一样:有关于库或代码示例的想法吗?开头:......最后:StreamfoosStream=????("foo.xml")streamFoos.forEach(foo->foo.doFooStuffs());编辑:@Pierre谢谢,这是您的解决方案的实现:try{XMLEventReaderreader=XMLInputFactory.newInstance().createXMLEventReader(stream);finalUnmarshallerunm

c# - 在 C# 中,为什么我不能将 StringReader 传递给带有 Stream 参数的方法?

在.net4和C#中。我已经实现了一个静态方法来将XML流反序列化为一个对象。这只是进入一个对象的一种xml格式,所以我不想用它做任何花哨的事情。由于我可以通过多种方式获取此XML内容,我想我应该将传递给静态方法的参数设为Stream对象。我原以为它会接受从基类Stream派生的任何对象——例如FileStream、MemoryStream、StringReader等。当我向它传递一个FileStream对象时,它工作正常,但当我向它传递一个StringReader时,它工作正常。我的静态方法:publicstaticMatchObjDeserializeMatch(StreamsrX

xml - 在 Spark 2.1.0 中读取大文件时出现内存不足错误

我想使用spark将一个大的(51GB)XML文件(在外部硬盘上)读入数据帧(使用spark-xmlplugin),进行简单的映射/过滤,重新排序,然后将其写回磁盘,如CSV文件。但无论我如何调整它,我总是得到一个java.lang.OutOfMemoryError:Javaheapspace。我想了解为什么增加分区数不能阻止OOM错误它不应该将任务拆分成更多的部分,以便每个单独的部分更小并且不会导致内存问题吗?(Sparkcan'tpossiblybetryingtostuffeverythinginmemoryandcrashingifitdoesn'tfit,right??)我尝

Java - XML 解析器性能 : Sun Java Streaming XML Parser (SJSXP) vs Woodstox

我正在寻找最新的、内存高效和高性能的JavaXML解析API。我需要解析3MB到5MB的XML文件。我对此进行了谷歌搜索,了解到SunJavaStreamingXMLParser(SJSXP)和Woodstox比DOM和SAX快得多。两者都使用StAXAPI。*这些技术不支持模式验证。AaltoXML处理器也实现了StAXAPI。我还没有找到关于这些技术性能的具体发现。哪一个在内存效率、高性能和易用性方面最好? 最佳答案 这里还有一些可能相关的链接:数据绑定(bind)的Stax实现:http://technotes.blogs.s

【2023】DevOps、SRE、运维开发面试宝典之Kafka相关面试题

文章目录1、消息队列的流派2、kafka的优势3、Kafka与Zookeeper的关系4、Kafka消息队列各组件概念5、Kafka消息队列应用场景6、Kafka消息收发的过程7、Kafka消息数据存储概念8、kafka消息的偏移量概念原理9、Kafka消息数据的顺序消费概念原理10、Kafka单播消费消息的原理11、Kafka多播消费概念12、Kafka集群模式下Broker|主题|分区|副本的概念13、Kafka集群中各组件的概念14、kafka如何防止消息被重复消费15、如何保证消息的顺序消费16、如何解决消息积压的问题1、消息队列的流派1)有Broker的消息队列中间件

docker-compose 搭建 kafka 集群

kafka依赖zookeeper,所以搭建kafka需要先配置zookeeperzookeeper:127.0.0.1:2181kafka1:     127.0.0.1:9092kafka2:     127.0.0.1:9093kafka3:     127.0.0.1:90941.安装docker-composecurl-Lhttp://mirror.azure.cn/docker-toolbox/linux/compose/1.25.4/docker-compose-Linux-x86_64-o/usr/local/bin/docker-composechmod+x/usr/local

c# - 如何使用 System.IO.Stream 和 LINQ 读取 XML 文件

我将像这样传递xml文件:File1.PostedFile.InputStream//readingxmlfile.....publicstaticvoidreadXMLOutput(Streamstream){System.Xml.Linq.XDocumentxml=System.Xml.Linq.XDocument.Load(stream);varquery=frompinxml.Element("ste").Element("Application")//where(int)p.Element("Id")==1selectPage;foreach(varrecordinquery

xml - 如何从 apache spark 框架读取 XML 文件?

我确实在这里遇到了使用spark进行数据预处理的迷你教程:http://ampcamp.berkeley.edu/big-data-mini-course/featurization.html然而,这只讨论文本文件解析。有没有办法从spark系统解析xml文件? 最佳答案 看起来有人为apache-spark制作了一个xml数据源。https://github.com/databricks/spark-xml这支持通过指定标签和推断类型来读取XML文件,例如importorg.apache.spark.sql.SQLContextv

windows - C++ -'Stream' 未声明的标识符

这里的新手基本上我想将文件加载到输入流。我收到以下错误errorC2065:'Stream':undeclaredidentifier.#pragmaonce#include#include#include#includenamespacetest2{usingnamespaceSystem;usingnamespaceSystem::ComponentModel;usingnamespaceSystem::Collections;usingnamespaceSystem::Windows::Forms;usingnamespaceSystem::Data;usingnamespace

windows - Kafka 无法在 Windows 上启动 - 未找到 key :\tmp\kafka-logs

我已经付出了一些努力让Kafka在Windows32上运行(公司发行的笔记本电脑-当然不是我的选择..)。我成功创建了一些主题。但是在停止/重新启动kafka后,它无法重新阅读这些主题。这是启动日志[2014-05-2912:26:23,097]INFO[ReplicaFetcherManageronbroker0]Removedfetcherforpartitions[vip_ips_alerts,0],[calls,0],[dropped_calls,0],[calls_online,0],[calls_no_phone,0](kafka.server.ReplicaFetcher