spark-ml

hadoop - 在 Yarn 客户端上运行 Spark

我最近设置了一个多节点HadoopHA(Namenode和ResourceManager)集群(3节点)，安装完成并且所有守护进程都按预期运行NN1中的守护进程:2945JournalNode3137DFSZKFailoverController6385Jps3338NodeManager22730QuorumPeerMain2747DataNode3228ResourceManager2636NameNodeNN2中的守护进程:19620Jps3894QuorumPeerMain16966ResourceManager16808NodeManager16475DataNode1657

mysql - Spark : Exception in thread "main" java. lang.ClassNotFoundException : com. mysql.jdbc.Driver

我在spark中编写了一个简单的程序来将数据帧写入mySql中的表。程序如下:importorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.SQLContextimportorg.apache.spark.sql.hive.HiveContextimportorg.apache.spark.SparkContext._importorg.apache.spark.rdd._//importorg.apa

mysql ClassNotFoundException apache spark gt scala hadoop apache-spark

java - 如何将 over rows 与 Spark 和 Java 集成？

我目前正在尝试用Java编写一个Spark作业来计算数据集中列的积分。数据如下所示:DateTimevelocity(inkm/h)vehicle2016-03-2811:00:4580A2016-03-2811:00:4575A2016-03-2811:00:4670A2016-03-2811:00:4768A2016-03-2811:00:4872A2016-03-2811:00:4875A...2016-03-2811:00:4768B2016-03-2811:00:4872B2016-03-2811:00:4875B要计算每条线路的距离(以公里为单位)，我必须定义当前线路和下一

Spark java 34 String 2016 hadoop apache-spark rdd integral

hadoop - 使用集成 spark build 时创建 hdfs

我正在使用Windows并尝试设置Spark。之前，除了Spark之外，我还安装了Hadoop，编辑了配置文件，运行了hadoopnamenode-format，然后我们就开始了。我现在正尝试通过使用预先用hadoop构建的Spark捆绑版本-spark-1.6.1-bin-hadoop2.6.tgz来实现相同的目的到目前为止，这是一个更干净、更简单的过程，但是我无法再访问创建hdfs的命令，hdfs的配置文件不再存在，而且我在任何bin中都没有“hadoop”文件夹。spark安装中没有Hadoop文件夹，我为winutils.exe创建了一个文件夹。感觉好像错过了什么。预建版本的s

hadoop build section Spark apache-spark hdfs

scala - 如何配置 Spark Streaming Scala 应用程序以从 Hadoop + Yarn 上的 HBase 读取

Spark、Hadoop+Yarn上的Hbase，我想从使用SBT构建的Scala应用程序读取和写入HBase。我无法创建HBaseScala应用程序:/usr/local/sparkapps/HBaseWordCount/src/main/scala/com/mydomain/spark/hbasewordcount/HbaseWordCount.scalapackagecom.mydomain.spark.hbasewordcountimportorg.apache.spark._importorg.apache.spark.streaming._importorg.apache.

Streaming Hadoop hbase 34 code scala apache-spark sbt

java - 如何使用 Spark 并行化列表列表？

假设我读取了整个文件:JavaPairRDDfilesRDD=sc.wholeTextFiles(inputDataPath);然后，我有以下映射器:JavaRDD>processingFiles=filesRDD.map(fileNameContent->{Listresults=newArrayList();for(someloop){if(condition){results.add(someString);}}...returnresults;});为了论证，假设在映射器内部我需要制作一个字符串列表，我从每个文件返回它。现在，每个列表中的每个字符串都可以独立查看，以后需要单独处

Spark java section 射器 String hadoop apache-spark hdfs

scala - CombineBy Key Spark 方法

下面的这段代码应该使用combineByKey()找到Per-KeyAverage:valresult=input.combineByKey((v)=>(v,1),(acc:(Int,Int),v)=>(acc._1+v,acc._2+1),(acc1:(Int,Int),acc2:(Int,Int))=>(acc1._1+acc2._1,acc1._2+acc2._2)).map{case(key,value)=>(key,value._1/value._2.toFloat)}result.collectAsMap().map(println(_))我对上述方法的执行感到困惑。假设我

CombineBy scala code section 累加 hadoop apache-spark

powershell - 尝试运行 Spark Submit、Hadoop 和其他命令行命令

我正在使用PowerShell设置一个在Windows上运行的测试实例。当实例启动并运行时，它将运行一些命令来设置Hadoop，然后运行Spark作业。当从实例本身内部手动完成时，这一切都可以正常工作。我现在正在尝试将这些命令转换为powershell。例如，这两个失败并显示它不是可识别的cmdlet或函数等消息:&$env:HADOOP_HOME+"\bin\winutils.exe"chmod777/tmp/hive&$env:HADOOP_HOME+"\bin"hadoopnamenode-format-force我收到的错误是:&:Theterm'c:\hadoop\bin

试运试运行 section code HADOOP_HOME powershell hadoop apache-spark

hadoop - 从 Spark 输出数十亿行

我正在尝试使用PySpark将具有约5,000,000行的RDD作为文本文件输出。这需要很长时间，那么关于如何使.saveAsTextFile()更快的一些技巧是什么？每行有3列，我正在保存到HDFS。最佳答案不知道时间有多长，也不知道每一行的大小或集群的维度，我只能做出一些猜测。首先，一般来说，Spark会为每个分区输出一个文件。如果您的RDD是单个(或几个)分区，那么输出到HDFS或GCS会显得很慢。考虑在输出之前重新分区(重新分区也需要时间，如果您可以将重新分区工作到管道中，以便更好地完成有用的工作)。您始终可以调用RDD

hadoop Spark section 长时 HDFS apache-spark google-cloud-storage pyspark google-cloud-dataproc

hadoop - 写入 hdfs 时出现 Spark Socket 超时问题

我正在尝试处理配置单元查询并以ORC格式写入HDFS。但是我遇到了超时问题。我检查了spark-default.conf，但是没有超时设置，我应该添加它吗？请让我知道要进行的更改temp=sqlContext.sql("""query""")temp.write.format("orc").option("header","true").save("hdfs://app/Quality/spark_test/")附上错误日志:org.apache.hadoop.net.ConnectTimeoutException:CallFrom..toapp:8020failedonsockett

时出 hadoop apache java apache-spark hive timeout hdfs

179 180 181182183 184 185