spark-submit

scala - CombineBy Key Spark 方法

下面的这段代码应该使用combineByKey()找到Per-KeyAverage:valresult=input.combineByKey((v)=>(v,1),(acc:(Int,Int),v)=>(acc._1+v,acc._2+1),(acc1:(Int,Int),acc2:(Int,Int))=>(acc1._1+acc2._1,acc1._2+acc2._2)).map{case(key,value)=>(key,value._1/value._2.toFloat)}result.collectAsMap().map(println(_))我对上述方法的执行感到困惑。假设我

powershell - 尝试运行 Spark Submit、Hadoop 和其他命令行命令

我正在使用PowerShell设置一个在Windows上运行的测试实例。当实例启动并运行时，它将运行一些命令来设置Hadoop，然后运行Spark作业。当从实例本身内部手动完成时，这一切都可以正常工作。我现在正在尝试将这些命令转换为powershell。例如，这两个失败并显示它不是可识别的cmdlet或函数等消息:&$env:HADOOP_HOME+"\bin\winutils.exe"chmod777/tmp/hive&$env:HADOOP_HOME+"\bin"hadoopnamenode-format-force我收到的错误是:&:Theterm'c:\hadoop\bin

试运试运行 section code HADOOP_HOME powershell hadoop apache-spark

hadoop - 从 Spark 输出数十亿行

我正在尝试使用PySpark将具有约5,000,000行的RDD作为文本文件输出。这需要很长时间，那么关于如何使.saveAsTextFile()更快的一些技巧是什么？每行有3列，我正在保存到HDFS。最佳答案不知道时间有多长，也不知道每一行的大小或集群的维度，我只能做出一些猜测。首先，一般来说，Spark会为每个分区输出一个文件。如果您的RDD是单个(或几个)分区，那么输出到HDFS或GCS会显得很慢。考虑在输出之前重新分区(重新分区也需要时间，如果您可以将重新分区工作到管道中，以便更好地完成有用的工作)。您始终可以调用RDD

hadoop Spark section 长时 HDFS apache-spark google-cloud-storage pyspark google-cloud-dataproc

hadoop - 写入 hdfs 时出现 Spark Socket 超时问题

我正在尝试处理配置单元查询并以ORC格式写入HDFS。但是我遇到了超时问题。我检查了spark-default.conf，但是没有超时设置，我应该添加它吗？请让我知道要进行的更改temp=sqlContext.sql("""query""")temp.write.format("orc").option("header","true").save("hdfs://app/Quality/spark_test/")附上错误日志:org.apache.hadoop.net.ConnectTimeoutException:CallFrom..toapp:8020failedonsockett

时出 hadoop apache java apache-spark hive timeout hdfs

hadoop - Cloudera Manager Yarn 和 Spark UI 不工作

我已经安装了CDH5.5.2，它在ClouderaManager中看起来没问题，直到我单击SparkHistoryServerUI链接或YarnHistoryServerUI链接。那些不起作用。不工作，我的意思是他们根本无法从浏览器访问。我在文件spark-defaults.conf中添加了以下几行spark.eventLog.dir=hdfs://name-node-1:8020/user/spark/applicationHistoryspark.eventLog.enabled=truespark.yarn.historyServer.address=http://name-no

Cloudera Manager name-node node allow hadoop apache-spark hadoop-yarn cloudera-cdh

hadoop - Spark 查询有问题，因为处理阻塞在一个阶段并一直阻塞直到磁盘变满

我正在下面的spark上执行此查询，但它不起作用。当到达第13阶段时，它会阻塞。并且磁盘空间在增加的同时在同一阶段被阻塞什么都不做，然后当磁盘变满时。查询有问题，您看到spark查询有什么问题了吗？首先我在配置单元中创建一个View:createviewq2_min_ps_supplycostasselectp_partkeyasmin_p_partkey,min(ps_supplycost)asmin_ps_supplycostfrompart,partsupp,supplier,nation,regionwherep_partkey=ps_partkeyands_suppkey=p

hadoop Spark partkey section p_partkey apache-spark hive apache-spark-sql

hadoop - Apache spark - 许多输出文件

我正在使用apache-spark我的spark作业每天创建10k个小文件(~50MB)对于HDFS中的命名节点来说太过分了我尝试使用coalesce来减少输出文件的数量，但会减慢工作速度。谁能建议我应该使用什么？最佳答案我们有一个类似的案例。我们每小时运行一次批处理作业并合并所有新文件。您可以使用另一个spark作业或任何其他最适合您的框架来执行此操作。通过这种方式，您可以完全分离这2个任务，并从每个任务中获得最佳性能。关于hadoop-Apachespark-许多输出文件，我们

许多 hadoop section spark stackoverflow apache-spark hdfs partitioning

hadoop - Spark ml 模型保存到 hdfs

我正在尝试将我的模型保存为从sparkml库创建的对象。但是，它给我一个错误:线程“main”中的异常java.lang.NoSuchMethodError:org.apache.spark.ml.PipelineModel.save(Ljava/lang/String;)V在com.sf.prediction$.main(prediction.scala:61)在com.sf.prediction.main(prediction.scala)在sun.reflect.NativeMethodAccessorImpl.invoke0(native方法)在sun.reflect.Nati

hadoop Spark gt lt apache-spark dataframe machine-learning

hadoop - spark-ml 朴素贝叶斯保存到 hdfs

我知道通过spark-mllib我们可以通过save()方法将朴素贝叶斯模型保存到hdfs。但是我们尝试使用spark-mlnaivebayes保存到hdfs然后它给出错误。错误的FS:hdfs://localhost:8020/pa/model/nb，应为:file:///我正在使用spark-1.6.0和hadoop2.7。最佳答案我在保存spark-ml模型时也遇到了问题-似乎没有一种直接的方法可以做到这一点。尝试像这样保存它-如果您遇到路径错误，请尝试将其保存到tmp，如下所示。sc.parallelize(Seq(NB

贝叶朴素 section spark hadoop apache-spark apache-spark-mllib apache-spark-ml

java - 使用 Java 和 Spark 将本地镜像的序列文件写入 HDFS

正如标题所说，这就是我现在的目标。我需要从目录加载一堆非文本文件从中提取通常的文件信息(创建日期、作者、类型……那些)创建一个类型的序列文件将新提取的信息放入.seq文件的Key中将它们全部存储在一个hdfs目录中。我使用spark的原因是为了可伸缩性(要处理数以千计的文件，我将有一个工作集群可用)并且因为我正在考虑在图像目录上实现一个SParkStreaming接收器，以便文件将被自动处理。这是我的初始代码:JavaPairRDDimageRDD=jsc.wholeTextFiles("file:///home/cloudera/Pictures/");imageRDD.mapToP

Spark java String Text SequenceFile hadoop apache-spark hdfs spark-streaming

182 183 184185186 187 188