草庐IT

sparking

全部标签

hadoop - 链接时 Spark 流作业失败

我在Hadoop集群上运行链式的几个SparkStreaming作业(一个在前一个作业的输出文件夹中寻找输入),使用HDFS,在Yarn集群模式下运行。job1-->readsfromfolderAoutputstofolderA'job2-->readsfromfolderA'outputstofolderBjob3-->readsfromfolderBoutputstofolderC...当独立运行作业时,它们工作得很好。但是当他们都在等待输入时,我在文件夹A中放置了一个文件,job1将其状态从运行更改为接受到失败。我在使用本地FS时无法重现此错误,只有在集群上运行时(使用HDFS

hadoop - Spark 1.2 无法连接到 HDP 2.2 上的 HDFS

我关注这个游览http://hortonworks.com/hadoop-tutorial/using-apache-spark-hdp/在HDP2.2上安装Spark。但是它告诉我dfs拒绝了我的连接!我的命令:./bin/spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--num-executors3--driver-memory512m--executor-memory512m--executor-cores1lib/spark-examples*.jar10这是日志:tput:Nov

scala - SparkPi 程序在 Yarn/Spark/Google Compute Engine 下保持运行

在GoogleComputeEngine上部署了一个Hadoop(Yarn+Spark)集群,其中有一个主节点和两个从节点。当我运行以下shell脚本时:spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--num-executors1--driver-memory1g--executor-memory1g--executor-cores1/home/hadoop/spark-install/lib/spark-examples-1.1.0-hadoop2.4.0.jar10作业一直在运行,每

hadoop - AWS Spark 集群设置错误

我已经创建了一个AWSkey对。我正在逐字逐句地遵循此处的说明:https://aws.amazon.com/articles/4926593393724923当我输入"awsemrcreate-cluster--nameSparkCluster--ami-version3.2--instance-typem3.xlarge--instance-count3--ec2-attributesKeyName=MYKEY--应用程序名称=Hive--bootstrap-actionsPath=s3://support.elasticmapreduce/spark/install-spark"

java - 使用 Spark 配置 Java 堆空间

我试图通过在spark中对一个小数组进行过采样来创建一个几百兆字节的文件,并将其作为目标文件保存到由spark-ec2脚本创建的hdfs系统://AcceptedargumentsvalURI=args(0)valrepNum=args(1).toInt//CreateaLabeledPointarrayofsize2vallabelPts=sc.parallelize(Array(LabeledPoint(1.0,Vectors.dense(1.0,0.0,3.0,4.0,5.0,7.0,8.0)),LabeledPoint(1.0,Vectors.dense(3.0,1.0,2.0

hadoop - 如何从 Spark MLlib FP Growth 模型中提取数据

我在独立模式下运行sparkmaster和slaves,没有Hadoop集群。使用spark-shell,我可以用我的数据快速构建一个FPGrowthModel。模型建立后,我试图查看模型中捕获的模式和频率,但spark卡在collect()方法(通过查看SparkUI)和更大的数据集(200000*2000矩阵数据)。这是我在spark-shell中运行的代码:importorg.apache.spark.mllib.fpm.{FPGrowth,FPGrowthModel}importorg.apache.spark.rdd.RDDvaltextFile=sc.textFile("/

hadoop - Spark : yarn cluster mode can't read hdfs path (No such file or directory)

我在yarn模式下使用spark提交,但我收到了这个错误:显然我的输入路径hdfs://缺少一个'/'我正在通过hdfs://master:8020/usr/jimmy/Test/,但是日志输出是日志文件中的hdfs:/master:8020/usr/jimmy/Test/Personal1(Personal1在我的代码中指定)缺少的'/'显然是问题所在我能做什么?请帮帮我我的命令:./bin/spark-submit--masteryarn-cluster--classMovie.Movies/usr/jimmy/Move.jarhdfs://master:8020/usr/jimm

hadoop - Apache Spark 中的错误称为输入路径不存在

ApacheSpark中是否有任何算法可以找出文本文件中的频繁模式。我尝试了以下示例,但总是以这个错误结束:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:file:/D:/spark-1.3.1-bin-hadoop2.6/bin/data/mllib/sample_fpgrowth.txt谁能帮我解决这个问题?importorg.apache.spark.mllib.fpm.FPGrowthvaltransactions=sc.textFile("...").map(_.split("")).

hadoop - 将 Spark 和 Hadoop 配置文件添加到 JAR?

我有一个Spark应用程序,我想使用配置文件对其进行配置,例如Spark的spark-defaults.conf、HBase的hbase-site.xml和log4j的log4j.properties。我还想避免必须以编程方式添加文件。我尝试将文件添加到我的JAR(在/和/conf路径下)但是当我运行spark-submit配置时文件似乎没有任何影响。为了进一步检查我的声明,我尝试使用相同的JAR运行spark-shell并检查文件的内容,我发现它们被来自其他位置的文件覆盖:/spark-defaults.conf和/log4j.properties完全不同,而/conf/hbase-

hadoop - Spark 作业的输出可以用作另一个 Spark 作业的输入吗?

我想将一个Spark作业的输出用作其他Spark作业的输入数据。可能吗? 最佳答案 是的。只要输出存储在某处。 关于hadoop-Spark作业的输出可以用作另一个Spark作业的输入吗?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/32899311/