spark-submit

amazon-web-services - 是否可以通过 EMR(通过 VPC)查看 Spark UI？

我已经完成了https://docs.aws.amazon.com/ElasticMapReduce/latest/ManagementGuide/emr-ssh-tunnel-local.html中描述的过程通过本地端口转发打开ssh隧道，然后转到http://localhost:8157/.这将打开Hadoop/YARN界面，此时我单击TrackingUI/ApplicationMaster链接，并收到“找不到此站点的服务器DNS”页面。根据AWS文档http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/em

scala - 如何捕获 Spark 异常并做某事？

当我将数据保存到hdfs失败时，如何捕获异常并在catchblock中执行某些操作。像这样:try{item.map(r=>doSome(r).saveAsTextFiles(outputPath+"/data")}catch{casee:Exception=>{valfailMessage="Exceptionfromoutputpart"+e.getClass+"\t"+e.getMessageprintln("Theexceptionisexecuted")update(aaa)}}finally{mc.close()}我想在保存操作抛出异常时更新一些状态。怎么做？

某事 scala section 34 Exception hadoop apache-spark

hadoop - 如何从 Spark 中查看底层 Hadoop 文件系统

我是这样启动Spark的:spark-shell--masterlocal[10]我正在尝试查看底层Hadoop安装上的文件。我想做这样的事情:hdfsls我该怎么做？最佳答案只需从sys.process包中导入类，您就可以从scala(spark默认自带)执行任何底层系统/操作系统命令(如hdfsdfs-ls甚至纯shell/DOS命令)。参见下面的例子Linuximportsys.process._valoldcksum="cksumoldfile.txt"!!valnewcksum="cksumnewfile.txt"!!

底层 hadoop section code pre apache-spark hdfs

scala - 给定核心和执行程序的数量，如何确定 spark 中 rdd 的分区数量？

10个节点集群有20个执行器和代码读取一个包含100个文件的文件夹的分区数是多少？最佳答案它在您运行的不同模式下是不同的，您可以使用spark.default.parallelism设置对其进行调整。来自Spark文档:ForoperationslikeparallelizewithnoparentRDDs,itdependsontheclustermanager:Localmode:numberofcoresonthelocalmachineMesosfinegrainedmode:8Others:totalnumberofc

给定 scala section spark stackoverflow hadoop apache-spark cluster-computing rdd

hadoop - 在 Spark 集群和 YARN 上运行的 Apache Zeppelin

我在ApacheZeppelin中创建并运行了一个%pyspark程序，该程序在带有yarn-client的Spark集群上运行。该程序正在从HDFS读取Dataframe中的文件，并执行一个简单的groupby命令并成功打印输出。我使用的是Zeppellin版本0.6.2和Spark2.0.0。我可以看到作业在YARN中运行(参见application_1480590511892_0007):但是当我同时检查SparkUI时，这个工作什么也没有:问题1:这份工作不应该出现在这两个窗口中吗？此外，上面SparkUI图像中已完成的应用程序是带有%python解释器的Zeppelin作业，

Zeppelin hadoop strong section 中运 apache-spark pyspark apache-zeppelin

scala - 在 Spark 中创建的数据之上创建 Hive 表

我在Spark下创建了ORC格式的数据，如下所示:varselect:String="SELECT..."sqlContext.sql(select).write.format("orc").save("/tmp/out/20160101")select="SELECT..."sqlContext.sql(select).write.format("orc").save("/tmp/out/20160102")&soon...现在我正尝试在Hive中创建一个外部表，如下所示:CREATEEXTERNALTABLE`mydb.mytable`(`col1`string,`col2`dec

中创 scala code section hadoop apache-spark hive orc

hadoop - 在 hadoop 上安装 spark

我在我的mac上安装了hadoop2.7。然后我想在上面安装Spark。但是没有关于这个的任何文档。任何人都可以逐步解释如何在hadoop上安装spark吗？最佳答案安装ApacheSpark的步骤1)打开ApacheSpark网站http://spark.apache.org/2)单击“下载”选项卡，将打开一个新页面3)选择Pre-builtforHadoop2.7andlater4)选择直接下载5)单击下载Spark:spark-2.0.2-bin-hadoop2.7.tgz并将其保存在您想要的位置。6)转到下载的Tar文件

hadoop spark section apache-spark installation

hadoop - Spark 作为Mapreduce 的存储层

我面临一个独特的问题，想在这里征求您的意见。我有一个遗留的map-reduce应用程序，其中多个map-reduce作业顺序运行，中间数据来回写入HDFS。由于将中间数据写入HDFS，具有小数据的作业从HDFS的特性中得不偿失，并且比非Hadoop等效作业花费的时间要长得多。最终我计划将我所有的mapreduce作业转换为SparkDAG，但这是一个巨大的变化，所以我有理由拖延。作为短期解决方案，我真正想要的是更改存储层，以便我继续受益于map-reduce并行性，但不会为存储层付出太多代价。在那个方向上，我正在考虑使用Spark作为存储层，其中map-reduce作业将通过Spark

Mapreduce hadoop section Spark map-reduce caching apache-spark distributed-computing

java - Spark-Hive 错误，我该如何解决？

我尝试编写一个简单的代码来使用SparkSql访问Hive表:SparkSessionspark=SparkSession.builder().appName("JavaSparkHiveExample").master("local[*]").config("hive.metastore.uris","thrift://localhost:9083").enableHiveSupport().getOrCreate();try{Datasetdf=spark.sql("selectsurvey_response_valuefromhealth");df.show();}catch(E

Spark-Hive Spark Dataset apache java hadoop apache-spark intellij-idea apache-spark-sql

python - 在 Yarn 上运行 Spark 官方 python 机器学习示例失败

我可以通过以下方式在yarn上成功运行pi.py示例:./bin/spark-submit--masteryarn--deploy-modeclusterexamples/src/main/python/pi.py.但是当我运行./bin/spark-submit--masteryarn--deploy-modeclusterexamples/src/main/python/ml/logistic_regression_with_elastic_net.py时，失败了。错误消息:容器以非零退出代码1退出通过比较这两个文件，我发现在将frompyspark.ml.classificati

python Spark code section hadoop apache-spark machine-learning hadoop-yarn

185 186 187188189 190 191