spark-core_草庐IT

java - spark - 如何减少 JavaPairRDD<Integer, Integer[]> 的洗牌大小？

我有一个JavaPairRDD我想在其上执行groupByKey行动。groupByKey行动给我一个:org.apache.spark.shuffle.MetadataFetchFailedException:Missinganoutputlocationforshuffle如果我没记错的话，这实际上是一个OutOfMemory错误。这只发生在大数据集中(在我的例子中，WebUI中显示的“ShuffleWrite”约为96GB)。我已经设置:spark.serializerorg.apache.spark.serializer.KryoSerializer在$SPARK_HOME/c

Integer 洗牌 code blockquote strong java scala apache-spark kryo

java - 为什么我不能再从 AWS S3 in Spark 应用程序读取数据？

我已经升级到ApacheSpark1.5.1，但我不确定这是否导致了它。我在spark-submit中有我的访问key，它一直有效。Exceptioninthread"main"java.lang.NoSuchMethodError:org.jets3t.service.impl.rest.httpclient.RestS3Service.(Lorg/jets3t/service/security/AWSCredentials;)VSQLContextsqlContext=newSQLContext(sc);DataFramedf=sqlContext.read().format("c

Spark java apache scala amazon-s3 apache-spark

java - 在 Spark/Jetty-server 中重新加载静态文件

我在这里描述了一些类似的问题:RefreshstaticfilesservedbySparkJava在我的应用程序中，用户可以将内容上传到一个文件夹，该文件夹也提供给用户Spark.staticFileLocation("/public");特征。我知道SparkJava在启动时只从该文件夹中读取一次“静态”内容，并且它不知道那里的变化。是否可以要求Spark(或通过Spark的Jetty)重新加载静态文件夹中的更改？最佳答案移动到externalStaticFileLocation("/var/www/public");

Jetty-server server section stackoverflow questions java jetty static-content spark-java

java - 从另一个应用程序启动它时如何正确等待 apache spark 启动器作业？

当我等待我的sparkapache工作完成但没有成功时，我试图避免使用“while(true)”解决方案。我有一个spark应用程序，它假设要处理一些数据并将结果放入数据库，我确实从我的spring服务调用它，并想等到工作完成。例子:带有方法的启动器:@Overridepublicvoidrun(UUIDdocId,Stringquery)throwsException{launcher.addAppArgs(docId.toString(),query);SparkAppHandlesparkAppHandle=launcher.startApplication();sparkApp

启动器 apache SparkAppHandle handle 34 java apache-spark spark-launcher

java - Spark Driver 内存和 Executor 内存

我是Spark的初学者，我正在运行我的应用程序以从文本文件中读取14KB数据，进行一些转换和操作(收集、收集AsMap)并将数据保存到数据库我在我的macbook上本地运行它，它有16G内存，8个逻辑核心。Java最大堆设置为12G。这是我用来运行应用程序的命令。bin/spark-submit--classcom.myapp.application--masterlocal[*]--executor-memory2G--driver-memory4G/jars/application.jar我收到以下警告2017-01-1316:57:31.579[Executortasklaunc

Executor Driver section memory code java apache-spark spark-streaming spark-submit

java - org.apache.catalina.core.StandardContext.startInternal 一个或多个监听器启动失败

我在Java/Spring/ApacheCxf上工作网络应用程序，突然间，当我进行了一些明显幼稚的更改时出现错误，25-Aug-201711:48:43.036INFO[RMITCPConnection(2)-127.0.0.1]org.apache.jasper.servlet.TldScanner.scanJarsAtleastoneJARwasscannedforTLDsyetcontainednoTLDs.EnabledebugloggingforthisloggerforacompletelistofJARsthatwerescannedbutnoTLDswerefoundi

监听器 StandardContext code public return java spring rest maven cxf

java - 如何解析 javax.ws.rs.core.Response

我无法理解如何解析javax.ws.rs.core.Response。有些人指出使用InputStream，但我不理解它是如何工作的，因为response.getEntity()的返回类型是Object类型。例如:Responseresponse=client.target(enpoint).request(MediaType.APPLICATION_XML).get();InputStreamis=response.getEntity();NetBeans提示说我需要将类型Object转换为InputStream。响应将由XML组成，我只希望能够使用DOM对其进行解析。我无法从jav

Response javax section InputStream java jakarta-ee dom jax-rs

java - Apache Spark——使用 spark-submit 抛出 NoSuchMethodError

要将Spark应用程序提交到集群，他们的文档说明:Todothis,createanassemblyjar(or“uber”jar)containingyourcodeanditsdependencies.BothsbtandMavenhaveassemblyplugins.Whencreatingassemblyjars,listSparkandHadoopasprovideddependencies;theseneednotbebundledsincetheyareprovidedbytheclustermanageratruntime.--http://spark.apache.

mdash NoSuchMethodError code section Guava java maven-shade-plugin spark-submit

Java & Spark : add unique incremental id to dataset

使用Spark和Java，我试图向现有的具有n列的数据集[行]添加一个整数标识列。我使用zipWithUniqueId()或zipWithIndex成功添加了一个id，甚至使用了monotonically_increasing_id()。但没有一个能令人满意。示例:我有一个包含195行的数据集。当我使用这三种方法中的一种时，我得到一些像1584156487或12036这样的ID。另外，这些ID不是连续的。我需要/想要的非常简单:一个Integerid列，其值从1到dataset.count()foreach行，其中id=1后跟id=2，等等。我如何在Java/Spark中做到这一点？

incremental amp section code row_number java apache-spark

java - 无法使用 Maven 导入 org.springframework.jdbc.core

我不知道为什么在我的项目中找不到以下导入:代码:importorg.springframework.jdbc.core.SqlInOutParameter;importorg.springframework.jdbc.core.SqlParameter;importorg.springframework.jdbc.object.StoredProcedure;我的pom.xml文件中有以下内容代码:org.springframeworkspring-context3.2.1.RELEASE但我发现，如果我添加以下内容，它会起作用，但我不明白为什么我需要这样做:org.springfra

springframework Maven gt lt java spring jdbc