spark-graphx

scala - Spark(Scala)从驱动程序写入(和读取)本地文件系统

第一个问题:我有一个带有hadoop的2节点虚拟集群。我有一个运行Spark作业的jar。此jar接受作为cli参数:commands.txt文件的路径，该文件告诉jar运行哪些命令。我使用spark-submit运行作业，我注意到我的从节点没有运行，因为它找不到主节点本地的commands.txt文件。这是我用来运行它的命令:./spark-1.6.1-bin-hadoop2.6/bin/spark-submit--classuniv.bigdata.course.MainRunner--masteryarn\--deploy-modecluster--executor-memory

驱动 scala section commands hadoop apache-spark hdfs

linux - 在现有的 Hadoop 集群上安装 Spark

我不是系统管理员，但我可能需要执行一些管理任务，因此需要一些帮助。我们有一个(远程)Hadoop集群，人们通常在集群上运行map-reduce作业。我打算在集群上安装ApacheSpark，以便集群中的所有机器都可以使用。这应该是可能的，我已经阅读了http://spark.apache.org/docs/latest/spark-standalone.html“只需将Spark作为单独的服务在同一台机器上启动，您就可以将Spark与现有的Hadoop集群一起运行……”如果您以前做过，请给我详细的步骤，以便创建Spark集群。最佳答案

Hadoop linux Spark strong apache-spark

hadoop - 在 spark SQL 中加载数据时获取 Hive 表中的空值

将数据从文件加载到配置单元表时，将插入空值。sqlCon.sql("createtablehive_6(idInt,nameString)partitionedby(dateString)rowformatdelimitedfieldsterminatedby','");sqlCon.sql("loaddatalocalinpath'/home/cloudera/file.txt'intotablehive_6partition(date='19July')");sqlCon.sql("select*fromhive_6").show()+----+----+------+|id|na

中加 hadoop null section July apache-spark

python - 验证字段值的有效方法 Spark

在将数据保存到hdfs之前，我需要验证数据框中的某些列。我想知道在pyspark1.5.2/python2.7中是否有一种优雅有效的方法来做到这一点例如，假设我有以下数据+-----+---+|a|b|+-----+---+|"foo"|123|+-----+---+我想确保列a的每个值不超过3个字符和列b是.我目前的想法是编写一个执行简单if/else的udf，并返回某个值，然后根据这些结果决定是否使作业失败。但是，对于大量数据，我担心它会很慢或者至少是非常繁重的处理。是否已经有一种完善的方法可以在spark中执行此操作？或者是否有任何流行的策略来做到这一点？我自己找不到关于这个主题

python Spark section 34 code hadoop apache-spark pyspark bigdata

hadoop - 在 Spark 中使用哪个设置来指定 `Output` 的压缩？

因此，Spark有文件spark-defaults.xml用于指定哪些设置，包括要使用哪个压缩编解码器以及在哪个阶段(RDD、Shuffle)。大多数设置都可以在应用程序级别进行设置。编辑:conf=SparkConf()conf.set("spark.hadoop.mapred.output.compress","true")conf.set("spark.hadoop.mapred.output.compression.codec","org.apache.hadoop.io.compress.snappy")如何使用spark-defaults.xml告诉Spark使用特定的编解

hadoop Output code spark apache-spark hadoop-plugins

scala - 将 hdfs 文件加载到 spark 上下文中

我是spark/scala的新手，需要从hdfs加载一个文件到spark。我在hdfs(/newhdfs/abc.txt)中有一个文件，我可以使用hdfsdfs-cat/newhdfs/abc.txt/查看我的文件内容p>我按照以下顺序将文件加载到spark上下文中spark-shell#Itenteredintoscalaconsolewindowscala>importorg.apache.spark._;//Line1scala>valconf=newSparkConf().setMaster("local[*]");scala>valsc=newSparkContext(con

文中 scala code section spark file hadoop apache-spark hadoop2

hadoop - 并非所有 Spark Worker 都启动 : SPARK_WORKER_INSTANCES

我的spark-defaults.conf配置是这样的。我的节点有32GbRAM。8个核心。我计划使用16gb和4个worker，每个worker使用1个核心。SPARK_WORKER_MEMORY=16gSPARK_PUBLIC_DNS=vodip-dt-a4d.ula.comcast.netSPARK_WORKER_CORES=4SPARK_WORKER_INSTANCES=4SPARK_DAEMON_MEMORY=1g当我尝试启动master并像这样工作时，只有1个worker正在启动，而我期望有4个worker。start-master.sh--properties-file/

SPARK_WORKER_INSTANCES INSTANCES SPARK section WORKER hadoop apache-spark spark-streaming

hadoop - Spark集群按顺序向文件中的每一行添加数字

我有一个文件，每行都包含名称，我想按顺序向每一行添加数字。例如，如果一个文件是这样的abcd我要它实现这个a,1b,2c,3d,4我写了这段代码来实现这个vallines=sc.textFile("data.txt")valpair=lines.zipWithIndex().map{case(i,line)=>i.toString+","+line}pair.collect()但是如您所知，Spark将其任务分布在不同的集群中。所以我不确定这是否有效。所以任何人都可以告诉我如何实现这一目标吗？提前致谢。最佳答案如果您将运行此代码

hadoop Spark 行号 section code apache-spark pyspark

hadoop - 如何设置 Spark 作业暂存位置

我的spark作业失败了，因为用户无权访问spark尝试写入暂存或临时数据集的目录。2017-03-1010:25:47,0928ERRORJniCommonfs/client/fileclient/cc/jni_MapRClient.cc:2072Thread:26413mkdirsfailedfor/user/cxpdiprod/.sparkStaging/application_1488190062017_14041,error13Exceptioninthread"main"org.apache.hadoop.security.AccessControlException:Us

hadoop Spark Client apache apache-spark

java - 在 Spark 中将纯文本文件转换为 Hadoop 序列文件

我现有的项目正在使用Hadoopmap-reduce生成一个具有自定义键和值的XML格式的序列文件。通过一次从输入源读取一行生成XML值，并实现RecordReader以从纯文本返回XML格式的下一个值。例如输入源文件有3行(第一行是标题，其余行是实际数据)id|name|value1|Vijay|10002|Gaurav|20003|Ashok|3000贴图方法序列文件有如下数据:FeedInstanceKey{feedInstanceId=1000,entity=bars}1Vijay1000FeedInstanceKey{feedInstanceId=1000,entity=ba

本文 Hadoop gt lt JavaSparkContext java xml apache-spark mapreduce

69 70 717273 74 75