spark-jobserver

java - Spark SASL 无法使用 yarn 在 emr 上工作

所以首先，我想说的是我所看到的解决这个问题的唯一方法是:Spark1.6.1SASL.但是，在添加spark和yarn认证的配置时，还是不行。下面是我在亚马逊emr上的yarn集群上使用spark-submit的spark配置:SparkConfsparkConf=newSparkConf().setAppName("secure-test");sparkConf.set("spark.authenticate.enableSaslEncryption","true");sparkConf.set("spark.network.sasl.serverAlwaysEncrypt","tr

上工 Spark AbstractChannelHandlerContext java hadoop apache-spark hadoop-yarn

hadoop - Spark 和 HBase 版本兼容性

我正在尝试集成Spark和Hbase1.2.4。我目前正在使用hadoop2.7.3。谁能告诉我哪个版本的Spark与HBase1.2.4兼容？最佳答案我正在使用spark1.6版和hbase1.2版。所以我认为spark版本1.6或1.6.x肯定可以与hbase1.2.4一起使用。关于hadoop-Spark和HBase版本兼容性，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questio

hadoop Spark section stackoverflow apache-spark hbase hadoop2

python - 使用 Spark 的默认 log4j 配置文件 : org/apache/spark/log4j-defaults. 属性将默认日志级别设置为 "WARN"

我是spark的新手，我将spark2.1.0与python2.7一起使用，但无法正常工作。我一直在寻找一个星期来找到我的问题的解决方案，但没有成功。当我在commmadLine中运行pyspark时出现以下错误:Python2.7.13(v2.7.13:a06454b1afa1,Dec172016,20:42:59)[MSCv.150032bit(Intel)]onwin32Type"help","copyright","credits"or"license"formoreinformation.UsingSpark'sdefaultlog4jprofile:org/apache/s

log4 log4j-defaults hadoop 34 java python apache-spark pyspark

hadoop - 简单的基于 deeplearning4J Java 的 Spark 示例？

我需要在hadoop集群中运行一个简单的基于Java的deeplearning4j示例，我找到了一个here.我需要指定来自命令行的输入(这应该是HDFS上的路径)并且输出应该转到HDFS，以供以后查看然而，在示例中没有提及，它是硬编码从本地文件系统输入并输出到本地文件系统。有人可以帮我吗？最佳答案也许是最近对我们示例的拉取请求的某种组合:https://github.com/deeplearning4j/dl4j-examples/pull/384Spring-hadoop可以帮助您吗？http://projects.spri

deeplearning4J deeplearning4 section deeplearning hadoop apache-spark

scala - 如何在 Spark 中拆分？

我在一个RDD中有数据，数据如下:scala>c_datares31:org.apache.spark.rdd.RDD[String]=/home/t_csvMapPartitionsRDD[26]attextFileat:25scala>c_data.count()res29:Long=45212scala>c_data.take(2).foreach(println)age;job;marital;education;default;balance;housing;loan;contact;day;month;duration;campaign;pdays;previous;pou

何在 scala val code section hadoop apache-spark

hadoop - 使用 Spark 获取存储在 JSON 中的值列表的统计属性

我使用以下结构以JSON格式存储我的数据:{"generationId":1,"values":[-36.0431,-35.913,...,36.0951]}我想获取文件(generationIds)的平均值之间的间距分布(连续数字之间的差异)。我的zepplein笔记本中的第一行是:importorg.apache.spark.sql.SparkSessionvalwarehouseLocation="/user/hive/warehouse"valspark=SparkSession.builder().appName("test").config("spark.sql.wareh

hadoop Spark section code 34 apache-spark hive apache-zeppelin

scala - 使用 Spark 在 HDFS 上压缩 Har 文件

我有大量的hadoop存档.har格式的数据。因为har不包含任何压缩，所以我试图进一步将其压缩并存储在HDFS中。我唯一可以毫无错误地开始工作的是:harFile.coalesce(1,"true").saveAsTextFile("hdfs://namenode/archive/GzipOutput",classOf[org.apache.hadoop.io.compress.GzipCodec])//`coalesce`becauseGzipisn'tsplittable.但是，这并没有给我正确的结果。生成了一个Gzipped文件，但输出无效(单行说明rdd类型等)任何帮助将不胜

scala Spark 34 hadoop apache apache-spark compression hdfs

scala - 使用 Spark 和 Scala 将数据插入 Hive 表时出现问题

我是Spark的新手。这是我想做的事情。我创建了两个数据流；第一个从文本文件中读取数据并使用hivecontext将其注册为temptable。另一个不断从Kafka获取RDD，对于每个RDD，它创建数据流并将内容注册为temptable。最后，我将这两个临时表连接到一个键上以获得最终结果集。我想将该结果集插入配置单元表中。但我没有想法。试图遵循一些示例，但只在配置单元中创建一个包含一列的表，而且该表也不可读。你能告诉我如何在特定的数据库和配置单元表中插入结果吗？请注意，我可以使用show函数看到连接的结果，因此真正的挑战在于插入配置单元表。下面是我使用的代码。imports.....

时出 scala 34 sqlContext section hadoop apache-spark hivecontext

hadoop - Spark 数据集写入 HDFS 期间创建的空分区

尝试使用write方法将数据集/数据帧作为Parquet保存到hdfs。分区在HDFS中创建，但数据为空。我正在使用Spark版本-2.xdataset.write.mode("append").partitionBy("empNo").format("parquet").save("hdfspath")或dataset.write.mode(SaveMode.Overwrite).save("hdfspath")请推荐最佳答案我刚刚检查了它的数据框。根据您的查询将其分区在单个列上。在具有适当值的输出文件夹中创建了两个分区文件夹

空分 hadoop section code 34 apache-spark hdfs

尝试将 Spark RDD 存储到 HBase 时出现 java.io.FileNotFoundException

我正在尝试将一些数据从HDFS加载到HBase，如下所示:Stringdir="/tmp/eloued";Configurationconfig=HBaseConfiguration.create();config.set(SequenceFileInputFormat.INPUT_DIR,dir);//serializationconfig.setStrings("io.serializations",config.get("io.serializations"),MutationSerialization.class.getName(),ResultSerialization.cl

时出 FileNotFoundException java org junit hadoop apache-spark hbase hdfs

37 38 394041 42 43