javaStreamingContext

java - 使用 Spark 流从数据库流式读取

我想使用sparkstreaming从像mysql这样的RDBMS数据库中读取数据。但我不知道如何使用JavaStreamingContext来做到这一点JavaStreamingContextjssc=newJavaStreamingContext(conf,Durations.milliseconds(500));DataFramedf=jssc.??我在网上搜索，但我没有找到任何东西提前致谢。最佳答案如果不安装一些第三方软件，你就不能那样做。您可以做的是结合使用SparkSQL包和Streaming包，创建一个个性化的接收

流式 Spark section streaming JavaStreamingContext java mysql apache-spark spark-streaming spark-dataframe

java - Spark 流 : Why internal processing costs are so high to handle user state of a few MB?

根据我们的实验，我们发现当状态超过一百万个对象时，有状态的SparkStreaming内部处理成本会花费大量时间。因此延迟会受到影响，因为我们必须增加批处理间隔以避免不稳定的行为(处理时间>批处理间隔)。它与我们应用的细节无关，因为它可以通过下面的代码重现。花这么多时间处理用户状态的Spark内部处理/基础架构成本到底是什么？除了简单地增加批处理间隔之外，还有其他方法可以减少处理时间吗？我们计划广泛使用状态:每个节点至少100MB左右，以将所有数据保存在内存中，并且每小时只转储一次。增加批处理间隔会有所帮助，但我们希望将批处理间隔保持最小。原因可能不是状态占用的空间，而是大对象图，因为

processing internal import javaStreamingContext spark java performance apache-spark spark-streaming

java - Spark 流 : Why internal processing costs are so high to handle user state of a few MB?

根据我们的实验，我们发现当状态超过一百万个对象时，有状态的SparkStreaming内部处理成本会花费大量时间。因此延迟会受到影响，因为我们必须增加批处理间隔以避免不稳定的行为(处理时间>批处理间隔)。它与我们应用的细节无关，因为它可以通过下面的代码重现。花这么多时间处理用户状态的Spark内部处理/基础架构成本到底是什么？除了简单地增加批处理间隔之外，还有其他方法可以减少处理时间吗？我们计划广泛使用状态:每个节点至少100MB左右，以将所有数据保存在内存中，并且每小时只转储一次。增加批处理间隔会有所帮助，但我们希望将批处理间隔保持最小。原因可能不是状态占用的空间，而是大对象图，因为

processing internal import javaStreamingContext spark java performance apache-spark spark-streaming