spark-submit

hadoop - Spark 分区修剪在 1.6.0 上不起作用

我在hdfs上创建了分区的parquet文件并创建了HIVE外部表。当我在分区列上使用过滤器查询表时，spark检查所有分区文件而不是特定分区。我们使用的是spark1.6.0。数据框:df=hivecontext.createDataFrame([("class1","Economics","name1",None),("class2","Economics","name2",92),("class2","CS","name2",92),("class1","CS","name1",92)],["class","subject","name","marks"])创建Parquet分区

hadoop Spark subject 34 students apache-spark pyspark-sql

scala - Spark/Scala - 从数据框中有条件地选择列

我有两个配置单元表A和B以及它们各自的数据帧df_a和df_bA+----+-----+-----------+|id|name|mobile1|+----+-----+-----------+|1|Matt|123456798|+----+-----+-----------+|2|John|123456798|+----+-----+-----------+|3|Lena||+----+-----+-----------+B+----+-----+-----------+|id|name|mobile2|+----+-----+-----------+|3|Lena|12345679

scala Spark code mobile section hadoop apache-spark hive

json - 在 Spark 或 Hive 中调用 get_json_object() 时无法获取值

json字符串'{"5.1":1,"s":2}'调用时selectget_json_object('{"5.1":1,"s":2}',concat("$.","5.1"))returnNULL什么时候打电话selectget_json_object('{"5.1":1,"s":2}',concat("$.","s"))return2看来。5.1中get_json_object()获取不到值。是否有任何方法可以使get_json_object()正常工作？hivedocument显示。是子运算符，我可以禁用它吗？最佳答案 .键内不支

json get_json_object code section hadoop apache-spark hive

java - Spark 作业与 yarn-client 一起正常工作，但与 yarn-cluster 完全不工作

我在用yarn提交spark作业jar时遇到问题。当我使用--masteryarn-client提交它时，它运行良好并给我预期的结果命令如下；./spark-submit--classmain.MainClass--masteryarn-client--driver-memory4g--executor-memory4g--num-executors4--executor-cores2job.jar其他选项但是当提交到集群模式时同样不起作用；命令如下;./spark-submit--classmain.MainClass--masteryarn--deploy-modecluster-

yarn yarn-cluster 03 INFO gt java hadoop apache-spark spark-submit

java - Apache Spark : Pre requisite questions

我即将在Ubuntu16.04LTS上安装ApacheSpark2.1.0。我的目标是一个独立的集群，使用Hadoop，Scala和Python(2.7是Activity的)下载时我得到了选择:为Hadoop2.7及更高版本预构建(文件为spark-2.1.0-bin-hadoop2.7.tgz)这个包实际上包含HADOOP2.7还是需要单独安装(首先我假设)？我安装了JavaJRE8(其他任务需要)。由于JDK8似乎也是先决条件，我还执行了“sudoaptinstalldefault-jdk”，它确实显示为已安装:default-jdk/xenial,now2:1.8-56ubunt

requisite questions section Java python scala ubuntu hadoop

hadoop - Giraph、Hadoop、Spark 和 Cassandra

如果我有Spark集群和Cassandra但没有Hadoop集群，我可以使用Giraph吗？目前，我正在使用GraphX，并想改用Giraph。考虑到我有Spark集群并且正在使用Cassandra，这是否可能？最佳答案几年前我对Giraph的使用经验有限，而且我从未尝试过在Hadoop集群之外使用它。但看起来你想要的东西即使不一定容易，至少在技术上是可行的。这code是使用ApacheGiraph进行实用图形分析的姊妹篇。如您所见，例如，它在DoubleWritable和Text的类路径中需要Hadoop，但它对Hadoop集

Cassandra hadoop section code Giraph apache-spark

java - Spark saveAsNewAPIHadoopFile java.io.IOException : Could not find a serializer for the Value class

我正在尝试将java对RDD存储为Hadoop序列文件，如下所示:JavaPairRDDputRdd=...config.set("io.serializations","org.apache.hadoop.io.serializer.JavaSerialization,org.apache.hadoop.io.serializer.WritableSerialization");putRdd.saveAsNewAPIHadoopFile(outputPath,ImmutableBytesWritable.class,Put.class,SequenceFileOutputFormat

saveAsNewAPIHadoopFile java apache SequenceFile hadoop apache-spark serialization hdfs

scala - 无法启动 spark-shell，因为它会在 hadoop 集群配置上产生错误，但是，在没有 hadoop 集群的情况下工作正常

当我删除hadoop集群设置文件夹时，我的spark-shell工作得很好，但是，如果我尝试使用hadoop集群设置文件夹，那么spark-shell会产生各种错误，例如“实例化'org.apache.spark时出错.sql.hive.HiveSessionState'inspark"即使我没有在任何地方配置配置单元。请注意，即使我尝试关闭hadoop和spark的所有集群，但即使是spark-shell也会产生以下错误: 最佳答案运行:mkdir/user/$whoami/spark-warehouse然后运行:spark-s

hadoop spark-shell spark section scala shell apache-spark apache-spark-sql

java - 基于 Spark 的应用程序在 JDK 8 中失败？

我正在运行作为Spark安装的一部分的内置示例示例，并在Hadoop2.7+Spark和JDK8中运行。但是它给了我以下错误:Exceptioninthread"main"java.lang.OutOfMemoryError:CannotallocatenewDoublePointer(10000000):totalBytes=363M,physicalBytes=911Matorg.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)atorg.apache.spark.deploy.SparkSubm

Spark java 中运 SparkSubmit section scala hadoop apache-spark

hadoop - 集群中 MapReduce 和 Spark 作业的资源分配

我无法理解为MapReduce和Spark作业分配资源的内部机制。在同一个集群中，我们可以运行MapReduce和Spark作业，但是为了运行MapReduce作业，内部资源管理器将为作业分配可用资源，例如数据节点和任务跟踪器。在内部工作我需要的“N”个映射器和缩减器。当谈到Spark上下文时，它需要工作节点和执行程序(内部JVM)来计算程序。这是否意味着MapReduce和Spark作业会有不同的节点？如果不是，任务跟踪器和执行器之间将如何区分。集群管理器将如何为Hadoop和Spark作业识别特定节点。这里有人能赐教吗最佳答案

MapReduce hadoop 跟踪器 section Spark apache-spark hadoop-yarn

228 229 230231232 233 234