草庐IT

优化Spark

全部标签

java - HashMap 作为 Spark Streaming 中的广播变量?

我有一些数据需要在sparkstreaming中分类。分类键值在程序开始时加载到HashMap中。因此,每个传入的数据包都需要与这些key进行比较并进行相应标记。我意识到spark有称为广播变量和累加器的变量来分发对象。教程中的示例使用简单的变量,例如etc。如何使用HashMap在所有sparkworker上共享我的HashMap。或者,是否有更好的方法来执行此操作?我正在用Java编写我的SparkStreaming应用程序。 最佳答案 在spark中,您可以用相同的方式广播任何可序列化的对象。这是最好的方法,因为您只需将数据发

java - "spark.memory.fraction"好像没有作用

在Spark中,当我从一个函数中从HDFS读取一个大约1GB的字符串时,我遇到了java.lang.OutOfMemoryError:Javaheapspace错误。我使用的执行程序内存是6GB。为了增加用户内存,我什至将spark.memory.fraction减少到0.3,但我仍然遇到同样的错误。似乎降低该值没有效果。我正在使用Spark1.6.1并使用Spark1.6核心库进行编译。我在这里做错了什么吗? 最佳答案 请参阅SparkConfSparkExecutorOOM:如何在Spark上设置内存参数一旦应用程序运行,您将看

TreeView 上 TreeItems 的 JavaFX 优化异步延迟加载

我有一个应用程序,其中有一个TreeView,其中有TreeItems持有大量叶子TreeItem。在TreeView中拥有大量的TreeItem会显着损害应用程序的性能,为了避免这种情况,我将做的是一次只允许展开一个非叶TreeItem,并且一旦TreeItem被折叠,我将清除它的子项,并在需要时异步加载它们(当用户展开TreeItem时)。奇怪的问题是,在下面的这个测试中,当我第一次点击treeitem上的展开箭头时,子项加载正常,如果我折叠它(这将清除子项)并再次展开它,有时它会工作和其他程序开始占用30%的CPU数分钟,然后恢复运行。更奇怪的是,如果我双击TreeItem将其展

java - 比较 Spark 中的两个数据帧(性能)

我需要比较我的spark应用程序中的两个数据帧。我浏览了以下帖子。HowtoobtainthedifferencebetweentwoDataFrames?但是,我不明白为什么最佳答案中的方法df1.unionAll(df2).except(df1.intersect(df2))比问题中的那个好df1.except(df2).union(df2.except(df1))谁能解释一下?据我了解,后者适用于两个较小的数据集,而前者适用于大型数据集。是因为后者将不同作为联合的一部分吗?即使那样,如果两个数据框有相同记录的可能性更大,那么在后一种情况下我们处理的是一个小数据集。

java - C# 结构内存优化?

我参加了试用期面试(?我不确定是不是这个词)面试官让我告诉他结构和类之间的区别是什么。所以我告诉他我知道的一切以及我在msdn上看到的一切。那家伙说“还不够”,我一点头绪都没有。于是他说:struct是优化过的,所以如果有integer和float,有一些位相同,那么它会节省这个空间,所以structwithint=0和float=0是int=int.MAX的一半大小,float=float.MIN.好的。所以我当时想-没听说过。但是,在面试之后我在考虑它,但它对我来说并没有什么意义。这意味着,当我们更改其中某个变量的值时,结构大小会有所不同。而且在内存中也不可能真的在同一个地方,万一

java - Apache Spark - 内存异常错误 - IntelliJ 设置

当我尝试运行使用ApacheSpark的测试时,我遇到了以下异常:Exceptionencounteredwheninvokingrunonanestedsuite-Systemmemory259522560mustbeatleast4.718592E8.Pleaseusealargerheapsize.java.lang.IllegalArgumentException:Systemmemory259522560mustbeatleast4.718592E8.Pleaseusealargerheapsize.我可以通过更改配置中的vm选项来绕过错误,使其具有:-Xms128m-Xmx

java - spark - 如何减少 JavaPairRDD<Integer, Integer[]> 的洗牌大小?

我有一个JavaPairRDD我想在其上执行groupByKey行动。groupByKey行动给我一个:org.apache.spark.shuffle.MetadataFetchFailedException:Missinganoutputlocationforshuffle如果我没记错的话,这实际上是一个OutOfMemory错误。这只发生在大数据集中(在我的例子中,WebUI中显示的“ShuffleWrite”约为96GB)。我已经设置:spark.serializerorg.apache.spark.serializer.KryoSerializer在$SPARK_HOME/c

java - 如何为长生命周期对象优化 Java gc

我的Java应用程序维护着一个可以增长到10GB的内部缓存。过期策略设置为30分钟或达到内存阈值时(我正在使用本地ehcache)。很明显,在30分钟后,所有缓存的对象都将在旧的gen中,并且需要完整的gc来收集它们。至于现在停止世界暂停可以达到6秒,我想减少它。平均对象大小为500k,但最多可达1兆,因此我们谈论的是10000-20000个缓存对象(实际上是字节数组)。GC优化的最佳策略是什么?我知道我可以脱离堆,但这是最后的解决方案。谢谢! 最佳答案 10GB缓存不是你应该在堆中做的事情。使用ByteBuffers用于缓存。对象

java - 为什么我不能再从 AWS S3 in Spark 应用程序读取数据?

我已经升级到ApacheSpark1.5.1,但我不确定这是否导致了它。我在spark-submit中有我的访问key,它一直有效。Exceptioninthread"main"java.lang.NoSuchMethodError:org.jets3t.service.impl.rest.httpclient.RestS3Service.(Lorg/jets3t/service/security/AWSCredentials;)VSQLContextsqlContext=newSQLContext(sc);DataFramedf=sqlContext.read().format("c

java - 在 Spark/Jetty-server 中重新加载静态文件

我在这里描述了一些类似的问题:RefreshstaticfilesservedbySparkJava在我的应用程序中,用户可以将内容上传到一个文件夹,该文件夹也提供给用户Spark.staticFileLocation("/public");特征。我知道SparkJava在启动时只从该文件夹中读取一次“静态”内容,并且它不知道那里的变化。是否可以要求Spark(或通过Spark的Jetty)重新加载静态文件夹中的更改? 最佳答案 移动到externalStaticFileLocation("/var/www/public");