草庐IT

apache-spark-1.6

全部标签

hadoop - 从另一个运行 Spark 的 Docker 容器写入在 Docker 中运行的 HDFS

我有一个spark+jupyter的docker镜像(https://github.com/zipfian/spark-install)我有另一个hadoop的docker镜像。(https://github.com/kiwenlau/hadoop-cluster-docker)我在Ubuntu中运行来自上述2个图像的2个容器。对于第一个容器:我能够成功启动jupyter并运行python代码:importpysparksc=pyspark.sparkcontext('local[*]')rdd=sc.parallelize(range(1000))rdd.takeSample(Fal

apache-spark - Kerberos Cloudera Hadoop 的 livy curl 请求错误

在kerberizedCDH5.10.x上配置了livy服务器,它在端口8998上运行良好,但curl请求给出以下错误,curl--negotiate-u:http://xxxxxxx:8998/sessionsError403HTTPERROR:403Problemaccessing/sessions.Reason:GSSException:Novalidcredentialsprovided(Mechanismlevel:FailedtofindanyKerberoscredentails)PoweredbyJetty://无法理解为什么请求没有通过kerberos安全层?

java - spark提交抛出错误java.lang.ClassNotFoundException : scala. runtime.java8.JFunction2$mcIII$sp

我写了一个字数统计代码,但是当我尝试使用下面的命令在Windows中从CMD运行它时,它抛出了一个异常。spark-submit--classcom.sample.WordCount--masterlocalfile:///E:/WordCountSample/target/WordCountSample-0.0.1-SNAPSHOT.jarfile:///C:/Users/siddh/OneDrive/Desktop/sample.txtpom.xml4.0.0SparkSampleInScalaWordCountSample0.0.1-SNAPSHOTjarWordCountSam

apache-spark - 今天使用 MapReduce 代替 Spark 有什么好处?

我正在设置一个Hadoop集群用于测试/PoC目的。今天有什么不能用Spark作为处理引擎来完成的吗?在我看来,Spark已经取代了MR,并且围绕Hadoop构建的所有其他工具/抽象也与Spark兼容(Hive、Sqoop、Flume、HBase、Pig...)——是否有其他限制?据我了解,即使对于批处理作业,Spark至少与MR一样快,如果您想在未来扩展您的用例(流式处理),那么无论如何您都需要适应Spark。我问这个问题是因为直到今天,大多数介绍和教程都在教您有关Hadoop和MapReduce的知识。 最佳答案 很简单,不,现

scala - 更改 Spark 的 Hadoop 版本

如何在不提交jar和定义特定Hadoop二进制文件的情况下为Spark应用程序设置Hadoop版本?这有可能吗?我只是不太确定在提交Spark应用程序时如何更改Hadoop版本。这样的东西是行不通的:valsparkSession=SparkSession.builder.master("local[*]").appName("SparkJobHDFSApp").getOrCreate()sparkSession.sparkContext.hadoopConfiguration.set("hadoop.common.configuration.version","2.7.4")

hadoop - Spark(2.3) 无法识别通过 Hive Alter Table 命令添加的 Parquet 表中的新列

我有一个使用Spark2.3APIdf.saveAstable创建的HiveParquet表。有一个单独的Hive进程可以更改同一个Parquet表以添加列(根据要求)。但是,下次当我尝试将同一个parquet表读入Spark数据帧时,使用HiveAlterTable命令添加到parquet表的新列不会显示在df.printSchema输出中。根据初步分析,似乎可能存在一些冲突,Spark使用自己的模式而不是读取Hive元存储。因此,我尝试了以下选项:更改Spark设置:spark.sql.hive.convertMetastoreParquet=false并刷新spark目录:spa

java.lang.NoClassDefFoundError : org/apache/hadoop/hbase/MasterNotRunningException 错误

我是用自己的HBasejava客户端代码创建的,但我很难编译它并让它运行。我正在从命令行编译,但我无法找到任何说明如何执行此操作,或者我需要在我的类路径中包含哪些jars。下面是我正在使用的类路径:$HADOOP_HOME/hadoop/hadoop-0.20.2/hadoop-0.20.2-core.jar:$HADOOP_HOME/hbase/hbase-0.90.0/hbase-0.90.0.jar:$HADOOP_HOME/hbase/lib/zookeeper-3.3.2.jar当我运行javac命令时,它编译正常。但是,当我运行我的java代码时,出现以下错误:Except

解决:org.apache.catalina.connector.ClientAbortException: java.io.IOException: 断开的管道

文章目录项目场景问题描述原因分析解决方案项目场景jdk11SpringBoot2.x项目,Tomcat容器Nginx问题描述系统日志中,时不时会出现下面的异常信息:org.apache.catalina.connector.ClientAbortException:java.io.IOException:断开的管道atorg.apache.catalina.connector.OutputBuffer.doFlush(OutputBuffer.java:310)atorg.apache.catalina.connector.OutputBuffer.flush(OutputBuffer.jav

java - Hadoop 执行错误 : Type mismatch in key from map: expected org. apache.hadoop.io.Text,收到 org.apache.hadoop.io.LongWritable

我正在Hadoop上实现一个PageRank算法,正如标题所说,我在尝试执行代码时遇到了以下错误:映射键中的类型不匹配:预期的org.apache.hadoop.io.Text,收到的org.apache.hadoop.io.LongWritable在我的输入文件中,我将图形节点ID存储为键,并将关于它们的一些信息存储为值。我的输入文件具有以下格式:1\t3.4,2,5,6,674\t4.2,77,2,7,83......为了理解错误的含义,我尝试使用LongWritable作为我的主要变量类型,如下面的代码所示。这意味着我有:map减少但是,我也试过:map减少还有:map减少而且我

hadoop - 线程 "main"org.apache.hadoop.mapred.InvalidJobConfException : Output directory not set 中的异常

嘿,你能帮我清除以下错误吗?当我运行Mapreduce作业fopr将数据从hdfs文件插入到hbase表中时,我得到了这个。使用HFileOutputFormat.class,之前我使用MultiTableOutputFormat.class运行相同的程序,它工作正常,但是在将数据插入hbase表时花费了很多时间。那么你能帮帮我吗……:)*job.setMapOutputKeyClass(ImmutableBytesWritable.class);job.setMapOutputValueClass(Put.class);job.setInputFormatClass(TextInpu