草庐IT

javaStreamingContext

全部标签

java - 使用 Spark 流从数据库流式读取

我想使用sparkstreaming从像mysql这样的RDBMS数据库中读取数据。但我不知道如何使用JavaStreamingContext来做到这一点JavaStreamingContextjssc=newJavaStreamingContext(conf,Durations.milliseconds(500));DataFramedf=jssc.??我在网上搜索,但我没有找到任何东西提前致谢。 最佳答案 如果不安装一些第三方软件,你就不能那样做。您可以做的是结合使用SparkSQL包和Streaming包,创建一个个性化的接收

java - Spark 流 : Why internal processing costs are so high to handle user state of a few MB?

根据我们的实验,我们发现当状态超过一百万个对象时,有状态的SparkStreaming内部处理成本会花费大量时间。因此延迟会受到影响,因为我们必须增加批处理间隔以避免不稳定的行为(处理时间>批处理间隔)。它与我们应用的细节无关,因为它可以通过下面的代码重现。花这么多时间处理用户状态的Spark内部处理/基础架构成本到底是什么?除了简单地增加批处理间隔之外,还有其他方法可以减少处理时间吗?我们计划广泛使用状态:每个节点至少100MB左右,以将所有数据保存在内存中,并且每小时只转储一次。增加批处理间隔会有所帮助,但我们希望将批处理间隔保持最小。原因可能不是状态占用的空间,而是大对象图,因为

java - Spark 流 : Why internal processing costs are so high to handle user state of a few MB?

根据我们的实验,我们发现当状态超过一百万个对象时,有状态的SparkStreaming内部处理成本会花费大量时间。因此延迟会受到影响,因为我们必须增加批处理间隔以避免不稳定的行为(处理时间>批处理间隔)。它与我们应用的细节无关,因为它可以通过下面的代码重现。花这么多时间处理用户状态的Spark内部处理/基础架构成本到底是什么?除了简单地增加批处理间隔之外,还有其他方法可以减少处理时间吗?我们计划广泛使用状态:每个节点至少100MB左右,以将所有数据保存在内存中,并且每小时只转储一次。增加批处理间隔会有所帮助,但我们希望将批处理间隔保持最小。原因可能不是状态占用的空间,而是大对象图,因为