spark-structured-streaming

java - 使用 Spring Boot 1.5 避免 Kafka Streams 在测试中启动

在我的SpringBoot应用程序的测试过程中，我遇到了一个非常烦人的问题。我有一个使用KafkaStreams并在专用配置文件中声明它们的应用程序。@EnableKafka@EnableKafkaStreams@ConfigurationpublicclassKafkaStreamConfiguration{@Bean(name=KafkaStreamsDefaultConfiguration.DEFAULT_STREAMS_CONFIG_BEAN_NAME)publicStreamsConfigkStreamsConfigs(){//Omissis}@BeanpublicKStre

java - Apache Kafka 1.0.0 Streams API Multiple Multilevel groupby

我如何在KafkaStreamsAPI中使用具有多个约束的.groupby。与下面的Java8StreamsAPI示例相同publicvoidtwoLevelGrouping(Listpersons){finalMap>>personsByCountryAndCity=persons.stream().collect(groupingBy(Person::getCountry,groupingBy(Person::getCity)));System.out.println("PersonslivinginLondon:"+personsByCountryAndCity.get("UK"

Multilevel Multiple section code Person java apache-kafka apache-kafka-streams

java - Spark Kryo 注册数组类

我正在尝试用数组注册一个类(激活了Kryo的SparkJava)，日志显示一条明确的消息:Classisnotregistered:org.apache.spark.sql.execution.datasources.InMemoryFileIndex$SerializableBlockLocation[]我已经写了几个组合，但这些都不起作用:kryo.register(Class.forName("org.apache.spark.sql.execution.datasources.InMemoryFileIndex$SerializableBlockLocation[]"));

Spark java SerializableBlockLocation InMemoryFileIndex datasources apache-spark kryo

java - NoClassDefFoundError : javax/xml/stream/XMLStreamException

尝试使用ApachePOI编写.xlsx文件时出现以下异常NoClassDefFoundError:javax/xml/stream/XMLStreamException这是代码片段:-XSSFWorkbookwb=newXSSFWorkbook();Sheetsheet=wb.createSheet();Rowrow=sheet.createRow(0);Cellcell=row.createCell(0);cell.setCellValue(100);FileOutputStreamfileOut=newFileOutputStream("D:\\workspace\\April\

NoClassDefFoundError XMLStreamException section code li java excel apache-poi xlsx

java - 一个 Stream 是否可以顺序处理一部分流水线，然后并行处理？

我有以下代码无法按预期工作(跳过随机行，而不是第一行):Files.lines(path).skip(1).parallel().forEach(System.out::println)我感觉我误解了Streams的行为。问题是:我能否先将流视为顺序流(并使用“有状态的中间操作”)，然后将其送入并行forEach？最佳答案整个管道要么是并行的，要么是顺序的。尝试使用forEachOrdered而不是forEach。在我的测试中，如果使用forEachOrdered它会跳过第一行(对于forEach它会跳过最后一行)。forEac

Stream java code section forEach java-8 java-stream

java - HashMap 作为 Spark Streaming 中的广播变量？

我有一些数据需要在sparkstreaming中分类。分类键值在程序开始时加载到HashMap中。因此，每个传入的数据包都需要与这些key进行比较并进行相应标记。我意识到spark有称为广播变量和累加器的变量来分发对象。教程中的示例使用简单的变量，例如etc。如何使用HashMap在所有sparkworker上共享我的HashMap。或者，是否有更好的方法来执行此操作？我正在用Java编写我的SparkStreaming应用程序。最佳答案在spark中，您可以用相同的方式广播任何可序列化的对象。这是最好的方法，因为您只需将数据发

Streaming HashMap section 斯卡拉 java apache-spark spark-streaming

java - 如何限制 Stream 顺序运行，并防止它并行运行？

我有一个方法可以返回从自定义拆分器生成的流；分离器不安全。由于spliterator不安全，并且它保持状态，我想防止它并行运行。有没有办法防止返回的流并行运行？我没能找到执行此操作的任何文档或示例。我确实在BaseStream类上找到了一个sequential()方法，但这似乎并没有阻止用户调用parallel()来得到一个并行流。最佳答案并行流调用拆分器的trySplit()方法将您的任务拆分为多个部分。这是absolutelylegit从trySplit()返回null表示“我拒绝拆分”。在这种情况下，即使显式调用了.par

Stream java code section trySplit java-stream spliterator

java - 是否有更高效的 Java 8 Stream 方法来查找 int[] 中的索引？

基于BlackJackQuestion，我想知道如何指示所有获胜的手。实际上，最初的问题只是询问两个不大于21的数字中的最大值。所以像这样的方法publicintblackjack(inta,intb);但是，如果有人希望返回所有获胜的手(假设输入数组中的位置是table上的一个座位)，那么签名如:/***returnsanarrayindicatetheindexinthespecifiedhandsthat*correspondtothewinninglocations.Willreturnanemptyarrayif*therearenowinners.Thelengthofth

Stream java hands code int arrays java-8 java-stream

java - "spark.memory.fraction"好像没有作用

在Spark中，当我从一个函数中从HDFS读取一个大约1GB的字符串时，我遇到了java.lang.OutOfMemoryError:Javaheapspace错误。我使用的执行程序内存是6GB。为了增加用户内存，我什至将spark.memory.fraction减少到0.3，但我仍然遇到同样的错误。似乎降低该值没有效果。我正在使用Spark1.6.1并使用Spark1.6核心库进行编译。我在这里做错了什么吗？最佳答案请参阅SparkConfSparkExecutorOOM:如何在Spark上设置内存参数一旦应用程序运行，您将看

amp fraction spark code Memory java scala apache-spark

java - 比较 Spark 中的两个数据帧(性能)

我需要比较我的spark应用程序中的两个数据帧。我浏览了以下帖子。HowtoobtainthedifferencebetweentwoDataFrames?但是，我不明白为什么最佳答案中的方法df1.unionAll(df2).except(df1.intersect(df2))比问题中的那个好df1.except(df2).union(df2.except(df1))谁能解释一下？据我了解，后者适用于两个较小的数据集，而前者适用于大型数据集。是因为后者将不同作为联合的一部分吗？即使那样，如果两个数据框有相同记录的可能性更大，那么在后一种情况下我们处理的是一个小数据集。

Spark java code section df scala performance apache-spark apache-spark-sql