spark-submit_草庐IT

hadoop - Apache Spark : Error on JavaSparkContext. 停止()

当我的spark程序调用JavaSparkContext.stop()时，出现如下错误。14/12/1116:24:19INFOMain:sc.stop{14/12/1116:24:20ERRORConnectionManager:CorrespondingSendingConnectiontoConnectionManagerId(cluster02,38918)notfound14/12/1116:24:20ERRORSendingConnection:ExceptionwhilereadingSendingConnectiontoConnectionManagerId(clust

scala - 如何用Spark写程序替换word

Hadoop很容易使用.replace()例如String[]valArray=value.toString().replace("\N","")但它在Spark中不起作用，我在Spark-shell中编写Scala，如下所示valoutFile=inFile.map(x=>x.replace("\N",""))那么，如何处理呢？最佳答案由于某些原因，您的x是一个Array[String]。你是怎么得到它的？如果你愿意，你可以.toString.replace它，但这可能不会得到你想要的东西(并且无论如何都会在java中给出错误

何用 scala code section replace hadoop apache-spark

hadoop - 在 Mesos 0.21.0 上使用 Hadoop 2.3.0 产生 Spark ，从站上出现错误 "sh: 1: hadoop: not found"

我正在Mesos0.21.0上使用Hadoop2.3.0设置spark。当我在主机上尝试spark时，我从mesosslave的stderr收到这些错误消息:WARNING:LoggingbeforeInitGoogleLogging()iswrittentoSTDERRI122912:34:45.9236658571fetcher.cpp:76]FetchingURI'hdfs://10.170.207.41/spark/spark-1.2.0.tar.gz'I122912:34:45.9252408571fetcher.cpp:105]Downloadingresourcefrom

hadoop 站上 spark 701475338 section apache-spark mesos

hadoop - 链接时 Spark 流作业失败

我在Hadoop集群上运行链式的几个SparkStreaming作业(一个在前一个作业的输出文件夹中寻找输入)，使用HDFS，在Yarn集群模式下运行。job1-->readsfromfolderAoutputstofolderA'job2-->readsfromfolderA'outputstofolderBjob3-->readsfromfolderBoutputstofolderC...当独立运行作业时，它们工作得很好。但是当他们都在等待输入时，我在文件夹A中放置了一个文件，job1将其状态从运行更改为接受到失败。我在使用本地FS时无法重现此错误，只有在集群上运行时(使用HDFS

hadoop Spark section folder strong hdfs apache-spark spark-streaming

hadoop - Spark 1.2 无法连接到 HDP 2.2 上的 HDFS

我关注这个游览http://hortonworks.com/hadoop-tutorial/using-apache-spark-hdp/在HDP2.2上安装Spark。但是它告诉我dfs拒绝了我的连接!我的命令:./bin/spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--num-executors3--driver-memory512m--executor-memory512m--executor-cores1lib/spark-examples*.jar10这是日志:tput:Nov

hadoop Spark DFSOutputStream apache apache-spark hadoop2 hortonworks-data-platform ambari

scala - SparkPi 程序在 Yarn/Spark/Google Compute Engine 下保持运行

在GoogleComputeEngine上部署了一个Hadoop(Yarn+Spark)集群，其中有一个主节点和两个从节点。当我运行以下shell脚本时:spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--num-executors1--driver-memory1g--executor-memory1g--executor-cores1/home/hadoop/spark-install/lib/spark-examples-1.1.0-hadoop2.4.0.jar10作业一直在运行，每

SparkPi Compute section code br scala hadoop apache-spark google-compute-engine hadoop-yarn

hadoop - AWS Spark 集群设置错误

我已经创建了一个AWSkey对。我正在逐字逐句地遵循此处的说明:https://aws.amazon.com/articles/4926593393724923当我输入"awsemrcreate-cluster--nameSparkCluster--ami-version3.2--instance-typem3.xlarge--instance-count3--ec2-attributesKeyName=MYKEY--应用程序名称=Hive--bootstrap-actionsPath=s3://support.elasticmapreduce/spark/install-spark"

hadoop Spark section elasticmapreduce noreferrer amazon-web-services

java - 使用 Spark 配置 Java 堆空间

我试图通过在spark中对一个小数组进行过采样来创建一个几百兆字节的文件，并将其作为目标文件保存到由spark-ec2脚本创建的hdfs系统://AcceptedargumentsvalURI=args(0)valrepNum=args(1).toInt//CreateaLabeledPointarrayofsize2vallabelPts=sc.parallelize(Array(LabeledPoint(1.0,Vectors.dense(1.0,0.0,3.0,4.0,5.0,7.0,8.0)),LabeledPoint(1.0,Vectors.dense(3.0,1.0,2.0

Spark java code section scala hadoop apache-spark

hadoop - 如何从 Spark MLlib FP Growth 模型中提取数据

我在独立模式下运行sparkmaster和slaves，没有Hadoop集群。使用spark-shell，我可以用我的数据快速构建一个FPGrowthModel。模型建立后，我试图查看模型中捕获的模式和频率，但spark卡在collect()方法(通过查看SparkUI)和更大的数据集(200000*2000矩阵数据)。这是我在spark-shell中运行的代码:importorg.apache.spark.mllib.fpm.{FPGrowth,FPGrowthModel}importorg.apache.spark.rdd.RDDvaltextFile=sc.textFile("/

hadoop Growth executor 22 TaskSetManager apache-spark apache-spark-mllib

hadoop - Spark : yarn cluster mode can't read hdfs path (No such file or directory)

我在yarn模式下使用spark提交，但我收到了这个错误:显然我的输入路径hdfs://缺少一个'/'我正在通过hdfs://master:8020/usr/jimmy/Test/，但是日志输出是日志文件中的hdfs:/master:8020/usr/jimmy/Test/Personal1(Personal1在我的代码中指定)缺少的'/'显然是问题所在我能做什么？请帮帮我我的命令:./bin/spark-submit--masteryarn-cluster--classMovie.Movies/usr/jimmy/Move.jarhdfs://master:8020/usr/jimm

directory cluster code hdfs master hadoop apache-spark