sparking

xml - 具有多列的 Spark 中的横向 View /分解，获取重复项

我有以下数据框，其中一些列包含数组。(我们使用的是spark1.6)+--------------------+--------------+------------------+--------------+--------------------+-------------+|UserName|col1|col2|col3|col4|col5|+--------------------+--------------+------------------+--------------+--------------------+-------------+|foo|[Main,Indi

多列 Spark explod 34 col xml scala apache-spark hadoop hive

apache-spark - 在 Google dataproc HDFS 与谷歌云存储(谷歌桶)中存储源文件

我想处理~500GB的数据，分布在64个JSON文件中，每个文件包含500万条记录。基本上，Map(Pyspark)在每条300M记录上运行。为了测试我的PySparkmap功能，我设置了一个googleDataproc集群(1master5workers只测试一个JSON文件)。此处的最佳做法是什么？我应该复制主节点中的所有文件(以便在Dataproc中使用Hadoop分布式文件系统)还是将文件保存在我的GCS存储桶中并将文件位置指向我的Pyspark中是否同样有效？我的代码还导入了相当多的外部模块，我已将这些模块复制到我的master中，并且在master中导入工作正常。将它复

歌云 apache-spark section strong 中运 hadoop pyspark google-cloud-storage google-cloud-dataproc

apache-spark - 所需的执行程序内存高于此集群的最大阈值

我在8节点集群上运行Spark，使用yarn作为资源管理器。我每个节点有64GB内存，我将执行程序内存设置为25GB，但出现错误:所需的执行程序内存(25600MB)高于此集群的最大阈值(16500MB)!请检查“yarn.scheduler.maximum-allocation-mb”和/或“yarn.nodemanager.resource.memory-mb”的值。我将yarn.scheduler.maximum-allocation-mb和yarn.nodemanager.resource.memory-mb设置为25600但没有任何变化。最佳答案

apache-spark apache section code yarn hadoop

apache-spark - Spark 数据集连接性能

我收到一个数据集，我需要将它与另一个表join。因此，我想到的最简单的解决方案是为另一个表创建第二个数据集并执行joinWith。defjoinFunction(dogs:Dataset[Dog]):Dataset[(Dog,Cat)]={valcats:Dataset[Cat]=spark.table("dev_db.cat").as[Cat]dogs.joinWith(cats,...)}这里我主要关心的是spark.table("dev_db.cat")，因为感觉我们指的是所有cat数据为SELECT*FROMdev_db.cat然后在稍后阶段执行join。或者查询优化器会在不引

连接性 apache-spark code strong section hadoop apache-spark-sql apache-spark-dataset

java - YARN 上 Spark 提交和 Flink 的 HDFS 路径

我使用clouderalivevm，我有一个hadoop和spral独立集群。现在我想用sparksubmit和flinkrun脚本提交我的工作。这也有效。但我的应用程序可以在hdfs中找到输入和输出文件的路径。我设置的路径如下:hdfs://127.0.0.1:50010/user/cloudera/outputs我从这个端口得到的信息:如何在java中设置hdfs的路径？？最好的问候，保罗最佳答案您不必设置DataNode主机的路径。在“概述”页面上，您将看到NameNode的连接信息，这也是您必须连接到的地方。

Spark Flink section 中设 stackoverflow java hadoop apache-spark hdfs apache-flink

python - Spark 异常 : Python worker did not connect back in time

我正在尝试将Python作业提交到2个工作节点的Spark集群，但我一直看到以下问题，最终导致spark-submit失败:15/07/0421:30:40WARNscheduler.TaskSetManager:Losttask0.1instage0.0(TID2,workernode0.rhom-spark.b9.internal.cloudapp.net):org.apache.spark.SparkException:Pythonworkerdidnotconnectbackintimeatorg.apache.spark.api.python.PythonWorkerFact

connect python spark apache java hadoop apache-spark hadoop-yarn pyspark

hadoop - 尽管设置了 spark.yarn.conf，但仍上传了 Spark 程序集文件

我有时通过相对较慢的连接使用spark-submit将作业提交到在Yarn上运行的Spark集群。为了避免为每个作业上传156MB的spark-assembly文件，我将配置选项spark.yarn.jar设置为HDFS上的文件。但是，这并没有避免上传，而是从HDFSSpark目录中取出程序集文件并将其复制到应用程序目录中:$:~/spark-1.4.0-bin-hadoop2.6$bin/spark-submit--classMyClass--masteryarn-cluster--confspark.yarn.jar=hdfs://node-00b/user/spark/share

尽管 hadoop spark yarn section apache-spark hdfs hadoop-yarn

scala - spark Vectors 和 scala immutable Vector 之间的区别？

我正在Scala中为Spark1.4编写一个项目，目前正在将我的初始输入数据转换为spark.mllib.linalg.Vectors和scala.immutable.Vector我以后想在我的算法中使用它。有人可以简要解释一下两者之间的区别，以及在什么情况下使用一个比另一个更有用吗？谢谢。最佳答案 spark.mllib.linalg.Vector专为线性代数应用而设计。mllib提供了两种不同的实现-DenseVector、SparseVector。虽然您可以使用norm或sqdist等有用的方法，但在其他方面却相当有限。由于

scala immutable code Vector mllib hadoop apache-spark apache-spark-mllib

hadoop - 为什么使用 yarn-client 启动 spark-shell 失败并显示 "java.lang.ClassNotFoundException: org.apache.hadoop.fs.FSDataInputStream"？

我正尝试在家里设置一个集群以满足我的个人需求(学习)。首先我做了Hadoop+Yarn。MR2正在工作。其次-我正在尝试添加Spark但收到有关缺少类的错误。[root@masterconf]#spark-shell--masteryarn-clientExceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/fs/FSDataInputStream...Causedby:java.lang.ClassNotFoundException:org.apache.hadoop.fs.FSDataInput

hadoop ClassNotFoundException code spark apache-spark hadoop-yarn

mysql - 如何有效地将 MySQL 表读入 Apache Spark/PySpark？

我有一堆MySQL表需要对其执行一些分析。我目前已将表格导出为CSV文件并将它们放在HDFS上。我现在从PySpark上的HDFS将每个表读入不同的RDD以进行分析。frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)df=sqlContext.read.format('com.databricks.spark.csv').options(header='true',inferschema='true').load('hdfs://path/to/file.csv')今天我了解到您可以直接从MySQL读取表到Spark。这样做

读入 PySpark section 39 sqlContext mysql hadoop apache-spark apache-spark-sql

226 227 228229230 231 232