草庐IT

spark-submit

全部标签

hadoop - Spark 分区修剪在 1.6.0 上不起作用

我在hdfs上创建了分区的parquet文件并创建了HIVE外部表。当我在分区列上使用过滤器查询表时,spark检查所有分区文件而不是特定分区。我们使用的是spark1.6.0。数据框:df=hivecontext.createDataFrame([("class1","Economics","name1",None),("class2","Economics","name2",92),("class2","CS","name2",92),("class1","CS","name1",92)],["class","subject","name","marks"])创建Parquet分区

scala - Spark/Scala - 从数据框中有条件地选择列

我有两个配置单元表A和B以及它们各自的数据帧df_a和df_bA+----+-----+-----------+|id|name|mobile1|+----+-----+-----------+|1|Matt|123456798|+----+-----+-----------+|2|John|123456798|+----+-----+-----------+|3|Lena||+----+-----+-----------+B+----+-----+-----------+|id|name|mobile2|+----+-----+-----------+|3|Lena|12345679

json - 在 Spark 或 Hive 中调用 get_json_object() 时无法获取值

json字符串'{"5.1":1,"s":2}'调用时selectget_json_object('{"5.1":1,"s":2}',concat("$.","5.1"))returnNULL什么时候打电话selectget_json_object('{"5.1":1,"s":2}',concat("$.","s"))return2看来。5.1中get_json_object()获取不到值。是否有任何方法可以使get_json_object()正常工作?hivedocument显示。是子运算符,我可以禁用它吗? 最佳答案 .键内不支

java - Spark 作业与 yarn-client 一起正常工作,但与 yarn-cluster 完全不工作

我在用yarn提交spark作业jar时遇到问题。当我使用--masteryarn-client提交它时,它运行良好并给我预期的结果命令如下;./spark-submit--classmain.MainClass--masteryarn-client--driver-memory4g--executor-memory4g--num-executors4--executor-cores2job.jar其他选项但是当提交到集群模式时同样不起作用;命令如下;./spark-submit--classmain.MainClass--masteryarn--deploy-modecluster-

java - Apache Spark : Pre requisite questions

我即将在Ubuntu16.04LTS上安装ApacheSpark2.1.0。我的目标是一个独立的集群,使用Hadoop,Scala和Python(2.7是Activity的)下载时我得到了选择:为Hadoop2.7及更高版本预构建(文件为spark-2.1.0-bin-hadoop2.7.tgz)这个包实际上包含HADOOP2.7还是需要单独安装(首先我假设)?我安装了JavaJRE8(其他任务需要)。由于JDK8似乎也是先决条件,我还执行了“sudoaptinstalldefault-jdk”,它确实显示为已安装:default-jdk/xenial,now2:1.8-56ubunt

hadoop - Giraph、Hadoop、Spark 和 Cassandra

如果我有Spark集群和Cassandra但没有Hadoop集群,我可以使用Giraph吗?目前,我正在使用GraphX,并想改用Giraph。考虑到我有Spark集群并且正在使用Cassandra,这是否可能? 最佳答案 几年前我对Giraph的使用经验有限,而且我从未尝试过在Hadoop集群之外使用它。但看起来你想要的东西即使不一定容易,至少在技术上是可行的。这code是使用ApacheGiraph进行实用图形分析的姊妹篇。如您所见,例如,它在DoubleWritable和Text的类路径中需要Hadoop,但它对Hadoop集

java - Spark saveAsNewAPIHadoopFile java.io.IOException : Could not find a serializer for the Value class

我正在尝试将java对RDD存储为Hadoop序列文件,如下所示:JavaPairRDDputRdd=...config.set("io.serializations","org.apache.hadoop.io.serializer.JavaSerialization,org.apache.hadoop.io.serializer.WritableSerialization");putRdd.saveAsNewAPIHadoopFile(outputPath,ImmutableBytesWritable.class,Put.class,SequenceFileOutputFormat

scala - 无法启动 spark-shell,因为它会在 hadoop 集群配置上产生错误,但是,在没有 hadoop 集群的情况下工作正常

当我删除hadoop集群设置文件夹时,我的spark-shell工作得很好,但是,如果我尝试使用hadoop集群设置文件夹,那么spark-shell会产生各种错误,例如“实例化'org.apache.spark时出错.sql.hive.HiveSessionState'inspark"即使我没有在任何地方配置配置单元。请注意,即使我尝试关闭hadoop和spark的所有集群,但即使是spark-shell也会产生以下错误: 最佳答案 运行:mkdir/user/$whoami/spark-warehouse然后运行:spark-s

java - 基于 Spark 的应用程序在 JDK 8 中失败?

我正在运行作为Spark安装的一部分的内置示例示例,并在Hadoop2.7+Spark和JDK8中运行。但是它给了我以下错误:Exceptioninthread"main"java.lang.OutOfMemoryError:CannotallocatenewDoublePointer(10000000):totalBytes=363M,physicalBytes=911Matorg.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)atorg.apache.spark.deploy.SparkSubm

hadoop - 集群中 MapReduce 和 Spark 作业的资源分配

我无法理解为MapReduce和Spark作业分配资源的内部机制。在同一个集群中,我们可以运行MapReduce和Spark作业,但是为了运行MapReduce作业,内部资源管理器将为作业分配可用资源,例如数据节点和任务跟踪器。在内部工作我需要的“N”个映射器和缩减器。当谈到Spark上下文时,它需要工作节点和执行程序(内部JVM)来计算程序。这是否意味着MapReduce和Spark作业会有不同的节点?如果不是,任务跟踪器和执行器之间将如何区分。集群管理器将如何为Hadoop和Spark作业识别特定节点。这里有人能赐教吗 最佳答案