草庐IT

apache-spark-2.3

全部标签

maven - 由 : java. lang.ClassNotFoundException : org. apache.hadoop.fs.CanSetDropBehind issue in eclipse 引起

我有以下spark字数统计程序:packagecom.sample.spark;importjava.util.Arrays;importjava.util.List;importjava.util.Map;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.*;importorg.apache.spark.api.java.function.FlatMapFunction;importorg.apache.spark.api.java.function.Function;importorg.apache.s

java - Spark : Technical terminology for reduce elements on the run-time?

在下面的字数统计示例中:(Hello,1)(Hello,1)(Hello,1)(Hello,1)(Hello,1)Hadoop的reducer函数会收集所有5个键为“Hello”的元素,然后在reducer函数中进行聚合。但是在Spark中,实际上是每次减少2个元素。比如把第一个和第二个(Hello,1)组合成(Hello,2),把第三个和第四个(Hello,1)组合成(Hello,2)……等等(当然,真实情况可能是在不同的顺序)。那么有专门的术语来描述Spark中使用的这种计算方法吗?谢谢! 最佳答案 它不一定以这种方式聚合值。您

scala - 无法使用 spark shell 在 hdfs 中创建 Parquet 文件

我想在hdfs中创建parquet文件,然后通过hive将其作为外部表读取。在编写Parquet文件时,我对spark-shell中的阶段失败感到震惊。星火版本:1.5.2斯卡拉版本:2.10.4Java:1.7输入文件:(employee.txt)1201,萨蒂什,25岁1202,克里希纳,28岁1203,阿米斯,39岁1204,贾韦德,231205,普鲁德维,23在Spark-Shell中:valsqlContext=neworg.apache.spark.sql.SQLContext(sc)valhiveContext=neworg.apache.spark.sql.hive.H

hadoop - 在 yarn 集群上安装 spark

我正在寻找有关如何在现有虚拟yarn集群上安装spark的指南。我有一个由两个节点组成的yarn集群,运行了map-reduce作业,效果很好。在日志中查找结果,一切正常。现在我需要在我的vagrantfile中添加spark安装命令和配置文件。我找不到好的指南,有人可以给我一个好的链接吗?我将这个指南用于yarnclusterhttp://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide/#single-node-installation提前致谢!

java - 添加自定义处理器后 Apache Nifi 不启动

我正在使用HortonworksHDF1.2.0.1沙箱,我正在尝试添加PutHiveQL将包含在1.0nifi版本中的处理器。到目前为止,我已经生成了.nar存档,但是当它被导入/lib目录时,nifi不再启动。我在nifi-app.log中得到一个java.lang.UnsupportedClassVersionError:2016-07-1513:22:37,158ERROR[main]org.apache.nifi.NiFiFailuretolaunchNiFiduetojava.util.ServiceConfigurationError:org.apache.nifi.pr

scala - 在 Spark 作业服务器中运行 Mllib

我正在练习使用spark网站提供的在线资源开发示例模型。我设法创建了模型并使用Spark-Shell为示例数据运行它,但是如何在生产环境中实际运行模型?是通过Spark作业服务器吗?importorg.apache.spark.mllib.classification.SVMWithSGDimportorg.apache.spark.mllib.regression.LabeledPointimportorg.apache.spark.mllib.linalg.Vectorsvaldata=sc.textFile("hdfs://mycluster/user/Cancer.csv")v

hadoop - Hbase 和 apache drill 存储插件

我无法在Hbase和ApacheDrill之间创建连接。我无法理解问题出在Hbase还是ApacheDrill。我可以在Drill中创建存储插件。这是我给出的配置。{"type":"hbase","config":{"hbase.zookeeper.quorum":"localhost","hbase.zookeeper.property.clientPort":"2181"},"size.calculator.enabled":false,"enabled":true}drill的GUI返回成功。但是当我尝试从drill中查询它时,出现多个错误。现在我遇到以下错误。Error:SYS

hadoop - 无法运行 Spark Java 程序

我正在运行一个用java编写的Spark程序,我正在使用示例wordcount示例。我已经创建了一个jar文件,但是当我提交spark作业时它抛出了一个错误。$spark-submit--classWordCount--masterlocal\home/cloudera/workspace/sparksample/target/sparksample-0.0.1-SNAPSHOT.jar我收到以下错误java.lang.ClassNotFoundException:wordCountatjava.net.URLClassLoader$1.run(URLClassLoader.java:

hadoop - Apache Flink - 跟踪最大值

假设我有一个由元组组成的数据流(t,q)其中t是感兴趣的变量。是否有一种分布式方式来跟踪具有最大t的元组?仅在t高于全局最大值时发出? 最佳答案 你考虑过Flink的状态特性吗?(https://ci.apache.org/projects/flink/flink-docs-release-1.0/apis/streaming/state.html)我自己对Flink很陌生,但我认为它提供了您正在寻找的功能。 关于hadoop-ApacheFlink-跟踪最大值,我们在StackOver

scala - 使用 Spark Streaming 从 http 创建分析

您好,我的要求是从http://10.3.9.34:9900/messages创建分析,即从http://10.3.9.34:9900/messages并将此数据放在HDFS位置/user/cloudera/flume并使用Tableau或HUEUI从HDFS创建分析报告。我在CDH5.5的spark-shell的scala控制台中尝试使用以下代码,但无法从http链接获取数据importorg.apache.spark.SparkContextvaldataRDD=sc.textFile("http://10.3.9.34:9900/messages")dataRDD.collect