spark-submit

hadoop - Spark 1.6.1 横幅显示

Spark版本:1.6.1forhadoop2.6当我启动pysparkREPL(bin/pyspark)时，会显示SPARKLogo，我看到版本1.6.0而不是1.6.1。我想不通。请注意，spark主文件夹中的RELEASE文件确实显示版本为1.6.1，因此我没有意外下载1.6.0版本。最佳答案那里打印的版本似乎来自Java方面。您确定Java库是最新的而不仅仅是PySpark？这是打印横幅的地方:https://github.com/apache/spark/blob/v1.6.1/python/pyspark/shell

Hadoop 容量调度程序和 Spark

如果我按照此处的说明在yarn中定义CapacityScheduler队列http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html如何让spark使用它？我想运行spark作业...但它们不应占用所有集群，而是在分配了一组固定资源的CapacityScheduler上执行。这可能......特别是在cloudera平台上(考虑到cloudera上的Spark在yarn上运行？)。最佳答案您应该根据需要通过编辑

Hadoop Spark CapacityScheduler section apache-spark cloudera

hadoop - 为什么cloudera建议选择他们在Spark中做的executors、cores和RAM的数量

在博文中:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/我用天真的方式来解决它:给定16个内核、64个RAM、8个线程-使用15个内核、63个RAM、6个执行程序。相反，他们推荐17个执行程序、5个内核和19个RAM。我看到他们有一个RAM方程式，但我不知道发生了什么。如果您只在一台机器上运行它(而不是通过HDFS)，这是否仍然适用？感谢帮助最佳答案我认为他们很好地解释了为什么here:(查看从幻灯片5开始的幻灯片)

executors cloudera section RAM hadoop apache-spark pyspark hdfs bigdata

hadoop - Spark 流是否适用于 "cp"和 "mv"

我正在使用Spark流我的程序不断从hadoop文件夹中读取流。问题是如果我复制到我的hadoop文件夹(hadoopfs-copyFromLocal)spark作业开始但如果我移动(hadoopfs-mv/hadoopsourcePath/*/destinationPath/)它不起作用。它是Spark流的限制吗？我还有一个与sparkstreaming相关的问题:Cansparkstreamingpickspecificfiles 最佳答案知道了..它适用于spark1.5但它只选择那些时间戳等于当前时间戳的文件。例如临时文件

amp 34 spark section streaming hadoop apache-spark spark-streaming

hadoop - 在 Yarn 客户端上运行 Spark

我最近设置了一个多节点HadoopHA(Namenode和ResourceManager)集群(3节点)，安装完成并且所有守护进程都按预期运行NN1中的守护进程:2945JournalNode3137DFSZKFailoverController6385Jps3338NodeManager22730QuorumPeerMain2747DataNode3228ResourceManager2636NameNodeNN2中的守护进程:19620Jps3894QuorumPeerMain16966ResourceManager16808NodeManager16475DataNode1657

hadoop Spark apache SparkSubmit apache-spark hadoop-yarn

mysql - Spark : Exception in thread "main" java. lang.ClassNotFoundException : com. mysql.jdbc.Driver

我在spark中编写了一个简单的程序来将数据帧写入mySql中的表。程序如下:importorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.SQLContextimportorg.apache.spark.sql.hive.HiveContextimportorg.apache.spark.SparkContext._importorg.apache.spark.rdd._//importorg.apa

mysql ClassNotFoundException apache spark gt scala hadoop apache-spark

java - 如何将 over rows 与 Spark 和 Java 集成？

我目前正在尝试用Java编写一个Spark作业来计算数据集中列的积分。数据如下所示:DateTimevelocity(inkm/h)vehicle2016-03-2811:00:4580A2016-03-2811:00:4575A2016-03-2811:00:4670A2016-03-2811:00:4768A2016-03-2811:00:4872A2016-03-2811:00:4875A...2016-03-2811:00:4768B2016-03-2811:00:4872B2016-03-2811:00:4875B要计算每条线路的距离(以公里为单位)，我必须定义当前线路和下一

Spark java 34 String 2016 hadoop apache-spark rdd integral

hadoop - 使用集成 spark build 时创建 hdfs

我正在使用Windows并尝试设置Spark。之前，除了Spark之外，我还安装了Hadoop，编辑了配置文件，运行了hadoopnamenode-format，然后我们就开始了。我现在正尝试通过使用预先用hadoop构建的Spark捆绑版本-spark-1.6.1-bin-hadoop2.6.tgz来实现相同的目的到目前为止，这是一个更干净、更简单的过程，但是我无法再访问创建hdfs的命令，hdfs的配置文件不再存在，而且我在任何bin中都没有“hadoop”文件夹。spark安装中没有Hadoop文件夹，我为winutils.exe创建了一个文件夹。感觉好像错过了什么。预建版本的s

hadoop build section Spark apache-spark hdfs

scala - 如何配置 Spark Streaming Scala 应用程序以从 Hadoop + Yarn 上的 HBase 读取

Spark、Hadoop+Yarn上的Hbase，我想从使用SBT构建的Scala应用程序读取和写入HBase。我无法创建HBaseScala应用程序:/usr/local/sparkapps/HBaseWordCount/src/main/scala/com/mydomain/spark/hbasewordcount/HbaseWordCount.scalapackagecom.mydomain.spark.hbasewordcountimportorg.apache.spark._importorg.apache.spark.streaming._importorg.apache.

Streaming Hadoop hbase 34 code scala apache-spark sbt

java - 如何使用 Spark 并行化列表列表？

假设我读取了整个文件:JavaPairRDDfilesRDD=sc.wholeTextFiles(inputDataPath);然后，我有以下映射器:JavaRDD>processingFiles=filesRDD.map(fileNameContent->{Listresults=newArrayList();for(someloop){if(condition){results.add(someString);}}...returnresults;});为了论证，假设在映射器内部我需要制作一个字符串列表，我从每个文件返回它。现在，每个列表中的每个字符串都可以独立查看，以后需要单独处

Spark java section 射器 String hadoop apache-spark hdfs

181 182 183184185 186 187