草庐IT

SPARK_DIST_CLASSPATH

全部标签

java - Apache Spark - 内存异常错误 - IntelliJ 设置

当我尝试运行使用ApacheSpark的测试时,我遇到了以下异常:Exceptionencounteredwheninvokingrunonanestedsuite-Systemmemory259522560mustbeatleast4.718592E8.Pleaseusealargerheapsize.java.lang.IllegalArgumentException:Systemmemory259522560mustbeatleast4.718592E8.Pleaseusealargerheapsize.我可以通过更改配置中的vm选项来绕过错误,使其具有:-Xms128m-Xmx

java - spark - 如何减少 JavaPairRDD<Integer, Integer[]> 的洗牌大小?

我有一个JavaPairRDD我想在其上执行groupByKey行动。groupByKey行动给我一个:org.apache.spark.shuffle.MetadataFetchFailedException:Missinganoutputlocationforshuffle如果我没记错的话,这实际上是一个OutOfMemory错误。这只发生在大数据集中(在我的例子中,WebUI中显示的“ShuffleWrite”约为96GB)。我已经设置:spark.serializerorg.apache.spark.serializer.KryoSerializer在$SPARK_HOME/c

java - 在 Mac OS 中将 JAR 添加到 CLASSPATH

我正在尝试在MacOS下为Java设置CLASSPATH。具体来说,我正在尝试向其中添加几个JAR存档。如果我这样做:##SettingupASMbytecodeinstructorlibraryexportCLASSPATH=$CLASSPATH:/Users/fork/Dev/ASM/lib/all/asm-all-3.3.1.jar它工作正常。但是,如果我按照文档的建议进行设置:##SettingupASMbytecodeinstructorlibraryexportCLASSPATH=$CLASSPATH:/Users/fork/Dev/ASM/lib/all/*好像不行。问题

java - 为什么我不能再从 AWS S3 in Spark 应用程序读取数据?

我已经升级到ApacheSpark1.5.1,但我不确定这是否导致了它。我在spark-submit中有我的访问key,它一直有效。Exceptioninthread"main"java.lang.NoSuchMethodError:org.jets3t.service.impl.rest.httpclient.RestS3Service.(Lorg/jets3t/service/security/AWSCredentials;)VSQLContextsqlContext=newSQLContext(sc);DataFramedf=sqlContext.read().format("c

java - 在 Spark/Jetty-server 中重新加载静态文件

我在这里描述了一些类似的问题:RefreshstaticfilesservedbySparkJava在我的应用程序中,用户可以将内容上传到一个文件夹,该文件夹也提供给用户Spark.staticFileLocation("/public");特征。我知道SparkJava在启动时只从该文件夹中读取一次“静态”内容,并且它不知道那里的变化。是否可以要求Spark(或通过Spark的Jetty)重新加载静态文件夹中的更改? 最佳答案 移动到externalStaticFileLocation("/var/www/public");

java - 从另一个应用程序启动它时如何正确等待 apache spark 启动器作业?

当我等待我的sparkapache工作完成但没有成功时,我试图避免使用“while(true)”解决方案。我有一个spark应用程序,它假设要处理一些数据并将结果放入数据库,我确实从我的spring服务调用它,并想等到工作完成。例子:带有方法的启动器:@Overridepublicvoidrun(UUIDdocId,Stringquery)throwsException{launcher.addAppArgs(docId.toString(),query);SparkAppHandlesparkAppHandle=launcher.startApplication();sparkApp

java - Spark Driver 内存和 Executor 内存

我是Spark的初学者,我正在运行我的应用程序以从文本文件中读取14KB数据,进行一些转换和操作(收集、收集AsMap)并将数据保存到数据库我在我的macbook上本地运行它,它有16G内存,8个逻辑核心。Java最大堆设置为12G。这是我用来运行应用程序的命令。bin/spark-submit--classcom.myapp.application--masterlocal[*]--executor-memory2G--driver-memory4G/jars/application.jar我收到以下警告2017-01-1316:57:31.579[Executortasklaunc

java - 碧 Jade 报告 : How to add font not in the application classpath

我正在尝试使用一种字体,它没有安装在我的本地操作系统上,带有JasperReports。jasper报表是这样使用的:名为Corbel的字体被导出为字体扩展(使用iReport),并包含在我系统的文件夹中的文件(Corbel.jar)中。我使用如下代码将此扩展添加到应用程序的类路径中:ClassLoadercl=newURLClassLoader(newURL[]{newURL("file:///D:/path/to/Corbel_jar_folder/")});param=newHashMap();param.put(JRParameter.REPORT_CLASS_LOADER,c

java - 使用 "dist"指定 Play 2.0 端口

我正在使用dist创建打包项目,并尝试修改生成的start脚本以在端口9001上运行应用程序。这是生成的内容:execjava$*-cp"`dirname$0`/lib/*"play.core.server.NettyServer`dirname$0`这是我试过的,但似乎不起作用。execjava$*-Dhttp.port=9001-cp"`dirname$0`/lib/*"play.core.server.NettyServer`dirname$0`有什么想法吗?我也试过在application.conf中指定http.port=9001但没有成功。在Play1.2.X中做到这一点非

java - Apache Spark——使用 spark-submit 抛出 NoSuchMethodError

要将Spark应用程序提交到集群,他们的文档说明:Todothis,createanassemblyjar(or“uber”jar)containingyourcodeanditsdependencies.BothsbtandMavenhaveassemblyplugins.Whencreatingassemblyjars,listSparkandHadoopasprovideddependencies;theseneednotbebundledsincetheyareprovidedbytheclustermanageratruntime.--http://spark.apache.