sparking

apache-spark - 如何尾纱原木？

我正在使用以下命令提交Spark作业。我想使用类似于Linuxbox中的tail命令操作的应用程序Id来跟踪yarn日志。exportSPARK_MAJOR_VERSION=2nohupspark-submit--class"com.test.TestApplication"--nameTestApp--queuequeue1--properties-fileapplication.properties--files"hive-site.xml,tez-site.xml,hbase-site.xml,application.properties"--masteryarn--deploy

原木 apache-spark section properties Spark hadoop hadoop-yarn tail apache-spark-2.0

amazon-web-services - 提交本地 spark 作业到 emr

我正在关注关于向emr集群提交spark作业的amazon文档https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/按照说明进行操作后，由于未解析的地址和类似的消息，频繁的故障排除失败。ERRORspark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:java.net.UnknownHostException:ip-172-32-1-231.us-e

amazon-web-services services DFSOutputStream hadoop java apache-spark amazon-emr

apache-spark - 设置 fs.defaultFS 属性时无法创建 Dataproc 集群？

这已经是之前post的讨论对象了，但是，我不相信答案是Googledocs指定可以创建集群设置fs.defaultFS属性。此外，即使可以通过编程方式设置此属性，但有时从命令行设置它会更方便。所以我想知道为什么传递给我的集群创建命令的以下选项不起作用:--propertiescore:fs.defaultFS=gs://my-bucket？请注意，我没有包含所有参数，因为我在没有前面标志的情况下运行命令并且它成功创建了集群。然而，当传递这个时，我得到:“失败:无法启动主控:报告的DataNodes数量不足。”如果有人通过设置fs.defaultFS成功创建了一个dataproc集群，那

apache-spark defaultFS code section hadoop google-cloud-dataproc

apache-spark - 使用 Pyspark 与 Hbase 交互的最佳方式是什么

我正在使用pyspark[spark2.3.1]和Hbase1.2.1，我想知道使用pyspark访问Hbase的最佳方式是什么？我做了一些初步的搜索，发现几乎没有可用的选项，比如使用shc-core:1.1.1-2.1-s_2.11.jar这可以实现，但无论我在哪里尝试寻找一些例子，大多数地方的代码都是用Scala编写的，或者示例也是基于Scala的。我尝试在pyspark中实现基本代码:frompysparkimportSparkContextfrompyspark.sqlimportSQLContextdefmain():sc=SparkContext()sqlc=SQLCont

apache-spark Pyspark 34 code pre hadoop apache-spark-sql hbase

scala - 从 spark dataframe 或 RDD 生成键值对，键中存在列名

我有一个spark数据框，我需要如下所示的键值对。我特别需要键中的列名。我想使用单个映射器传递来执行此操作。原始数据集:预期键值对:(Attribute_Name,Attribute_Value,Class),1单次映射后的预期结果:预期数据集最佳答案这应该有帮助:importorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.sql.functions.{explode,udf,typedLit}importorg.apache.spark.sql.S

列名 dataframe 34 header section scala apache-spark hadoop apache-spark-sql decision-tree

Scala 嵌套映射到 Spark RDD

我正在尝试将映射列表(Seq[Map[String,Map[String,String]])转换为RDD表/元组，其中映射中的每个键->值对平面映射到元组用外面map的key。例如Map(1->Map('k'->'v','k1'->'v1'))成为(1,'k','v')(1,'k1','v1')我试过下面的方法，但它似乎在并发问题上失败了。我有两个工作节点，它复制了键->值两次(我认为这是因为我做错了)假设我将我的map类型保存在案例类“记录”中valrdd=sc.parallelize(1torecords.length)valrecordsIt=records.iteratorva

Scala Spark code String section apache-spark hadoop apache-spark-sql rdd

scala - 如何过滤掉 spark 数据框中的 bool 字段？

我的数据框中有三列。第二个和第三个是bool字段。我想过滤掉真实的值。我试过这个nn.filter(col("col3")===true).show但它说无效的列名“true”。我的代码有什么问题？有什么帮助吗？我的代码:scala>nn.printSchemaroot|--ID:integer(nullable=true)|--col2:boolean(nullable=true)|--col3:boolean(nullable=true)scala>nn.show+---+-----+-----+|ID|col2|col3|+---+-----+-----+|4|true|fals

scala spark false apache apache-spark hadoop

apache-spark - HDFS 批量分析

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭3年前。Improvethisquestion我通常使用SparkStructuredStreaming、Kafka、HBase等进行实时分析。我没有开发任何批处理分析作业/系统。我想学习批量分析设计和开发。为此，我尝试了解lambda架构但我不知道一些事情。让我们回顾一下假设。我正在实时获取点击流数据。所有数据都发送到Kafka进行摄取。速度层:我们可以使用SparkStreaming/Flink等实时分析点击流数据中的session。然后我们可以

apache-spark apache section strong 送到 hadoop hive hdfs batch-processing

python - spark/pyspark 与 HBase 的集成

是否可以将Spark2.4.3连接到远程HBase1.3.2服务器？我试过使用这个版本:https://repo.hortonworks.com/content/repositories/releases/com/hortonworks/shc-core/1.1.1-2.1-s_2.11/但似乎存在兼容性问题:java.lang.NoSuchMethodError:org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/JsonInput;Z)Lorg/json4s/JsonAST$JValue;spark-submit--packagesc

pyspark python 34 shc-core blockquote apache-spark hadoop hbase

hadoop - Apache Spark 上的 AMPLab 鲨鱼

根据文档，“ApacheSpark是一种用于大规模数据处理的快速通用引擎。”“Shark是一个用于Hadoop数据的开源分布式SQL查询引擎。”Shark使用Spark作为依赖。我的问题是，如果我们使用Shark对分析查询进行快速响应，Spark只是将HiveQL解析为Spark作业还是做任何事情？最佳答案是的，Shark使用与Hive相同的想法，但将HiveQL转换为Spark作业而不是MapReduce作业。请阅读this的第13-14页这两者之间架构差异的文档。关于hadoo

hadoop Apache section Spark Shark hive apache-spark shark-sql

188 189 190191192 193 194