草庐IT

spark-submit

全部标签

hadoop - 在 Spark 中保存中间结果

我正在使用SparkSQL1.6.0创建处理管道。该管道由步骤/转换组成,一个步骤的输出转发到下一个步骤。在最后一步之后,结果DataFrame保存在HDFS中。我还需要在一些中间步骤中保存结果。这样做的代码如下:saveDataFrame(flushPath,flushFormat,isCoalesce,flushMode,previousDataFrame,sqlContext)previousDataFrame这里,previousDataFrame是最后一步的结果,saveDataFrame只是将DataFrame保存到给定的位置,然后previousDataFrame将被下一

hadoop - Spark 1.6.2 启动 Windows 7 32 位失败

我正在尝试以独立模式在Windows732位上运行spark1.6.2。我将环境变量设置为:SPARK_HOME=c:\sparkHADOOP_HOME=C:\Hadoop我的winutils.exe版本很好对于这个Windows版本。我这样设置主机文件:127.0.0.1localhost所以它认为我做了我在互联网上可以找到的关于这个主题的所有内容,但它仍然抛出这两个异常:(有趣的是我在另一台PC上尝试使用此设置并且它像魅力一样工作..:()可以有人帮我我该怎么做?谢谢!C:\spark\bin>spark-shelllog4j:WARNNoappenderscouldbefound

hadoop - 在具有高可用性的 Hadoop 集群上运行 Spark-submit 时出现异常

我在具有高可用性的Hadoop集群上运行Spark-submit命令时遇到异常。以下命令在未启用HA的其他集群上运行良好。spark-submit--masteryarn-client--executor-memory4g--executor-cores2--classcom.domain.app.module.mainclasstarget/SNAPSHOT-jar-with-dependencies.jar同一命令在启用HA的集群上不起作用并抛出以下异常。Exceptioninthread"main"java.lang.AbstractMethodError:org.apache.

Java 读写 Spark Vector 到 Hdfs

我写了Vector的(org.apache.spark.mllib.linalg.Vector)到HDFS如下publicvoidwritePointsToFile(Pathpath,FileSystemfs,Configurationconf,Listpoints)throwsIOException{SequenceFile.Writerwriter=SequenceFile.createWriter(conf,Writer.file(path),Writer.keyClass(LongWritable.class),Writer.valueClass(Vector.class));

windows - 在 yarn cluster (linux) : Error no sheme for Filesystem "C" 上从客户端 (windows) 执行 spark

我想将一个spark应用程序(只是一个简单的HelloWorld应用程序)部署到我的hadoop集群。在我的Windows机器上使用spark提交,我使用--masteryarn在客户端模式下执行应用程序。连接到hadoop集群是成功的,在集群上的日志文件中可以看到。(hadoopconf文件已经从集群下载下来,保存在客户端windows机器上,环境变量已经设置好)。使用hadoop2.7和spark1.6这是使用的spark-submit命令:>spark-submit--masteryarn--class"SimpleApp"..\..\SimpleApp\target\scala

scala - 如何让 Spark slave 在 Hadoop+Spark 集群中使用 HDFS 输入文件 'local'?

我有一个由9台计算机组成的集群,上面安装了ApacheHadoop2.7.2和Spark2.0.0。每台计算机都运行一个HDFSdatanode和Sparkslave。其中一台计算机还运行HDFSnamenode和Sparkmaster。我已经在复制=2的HDFS中上传了几TB的gz存档。事实证明,某些文件已损坏。我想找到他们。看起来“gunzip-t”可以提供帮助。所以我试图找到一种在集群上运行Spark应用程序的方法,以便每个Spark执行程序测试存档“本地”(即,其中一个副本位于该执行程序运行的同一台计算机上)只要它是可能的。以下脚本运行,但有时Spark执行程序会处理HDFS中

scala - 使用 Spark Scala 将 HDFS 文件内容存储在 ArrayBuffer 中

我正在尝试搜索特定关键字并将与该词关联的整行放入数组缓冲区中。我正在使用下面的示例并尝试将所有HHH放入数组缓冲区。示例PID|1|5897450M|58974650M|58977650M|CSTO^TES||19320722|F|||745-81ST^^IAMIBEH^FL^341|||||||332165520ORC||5033220|503320||||||20150202|||1689659096^HAM^MISH^^^^PIOBR|1||64564|DFDEFAULT|||20150202|2015002||||||||16096^^^^^I|||||||||HHH|1|NM

hadoop - 创建 SPARK RDD(HDFS 上的文件)和调用 Action 时出错

scala>valmanager=sc.textFile("hdfs://localhost:54310/user/training/employee_dir/employeeManager")scala>manager.first错误:java.io.EOFException:EndofFileExceptionbetweenlocalhostis:"localhost.localdomain/127.0.0.1";destinationhostis:"localhost":54310;:java.io.EOFException;Formoredetailssee:http://wi

hadoop - map 转换性能 spark dataframe 与 RDD

我有一个四节点hadoop集群(mapr),每个集群有40GB内存。我需要在大数据集(5亿行)的其中一个字段上“应用”一个函数。我的代码流程是,我从配置单元表中读取数据作为spark数据帧,并在其中一列上应用所需的函数,如下所示:schema=StructType([StructField("field1",IntegerType(),False),StructField("field2",StringType(),False),StructField("field3",FloatType(),False)])udfCos=udf(lambdarow:function_call(row

scala - Apache Spark : how to cancel job in code and kill running tasks?

我在客户端模式下使用Yarn(版本2.6.0)在Hadoop集群上运行Spark应用程序(版本1.6.0)。我有一段运行长时间计算的代码,如果它花费的时间太长,我想终止它(然后运行一些其他函数)。这是一个例子:valconf=newSparkConf().setAppName("TIMEOUT_TEST")valsc=newSparkContext(conf)vallst=List(1,2,3)//settingupaninfiteactionvalfuture=sc.parallelize(lst).map(while(true)_).collectAsync()try{Await.