草庐IT

spark-submit

全部标签

hadoop - Apache Spark 中的错误称为输入路径不存在

ApacheSpark中是否有任何算法可以找出文本文件中的频繁模式。我尝试了以下示例,但总是以这个错误结束:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:file:/D:/spark-1.3.1-bin-hadoop2.6/bin/data/mllib/sample_fpgrowth.txt谁能帮我解决这个问题?importorg.apache.spark.mllib.fpm.FPGrowthvaltransactions=sc.textFile("...").map(_.split("")).

hadoop - 将 Spark 和 Hadoop 配置文件添加到 JAR?

我有一个Spark应用程序,我想使用配置文件对其进行配置,例如Spark的spark-defaults.conf、HBase的hbase-site.xml和log4j的log4j.properties。我还想避免必须以编程方式添加文件。我尝试将文件添加到我的JAR(在/和/conf路径下)但是当我运行spark-submit配置时文件似乎没有任何影响。为了进一步检查我的声明,我尝试使用相同的JAR运行spark-shell并检查文件的内容,我发现它们被来自其他位置的文件覆盖:/spark-defaults.conf和/log4j.properties完全不同,而/conf/hbase-

hadoop - Spark 作业的输出可以用作另一个 Spark 作业的输入吗?

我想将一个Spark作业的输出用作其他Spark作业的输入数据。可能吗? 最佳答案 是的。只要输出存储在某处。 关于hadoop-Spark作业的输出可以用作另一个Spark作业的输入吗?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/32899311/

java - 使用 Hadoop、Apache Spark、HBase 实现 lambda 架构

我想用一个简单的例子来实现lambda架构。我无法将我的技术堆栈融入lambda架构的每一层。我想实时找出Twitter推文中的前10个热门主题标签。我列出了来自http://lambda-architecture.net/的每一层野兔的用途.所有进入系统的数据被分派(dispatch)到批处理层以及用于处理的速度层。批处理层有两个功能:(i)管理主数据集(一组不可变的,仅附加的原始数据集),以及(ii)预先计算批处理View。服务层索引批量View,以便可以查询它们以低延迟、特别的方式。速度层补偿更新到服务层,只处理最近的数据。任何传入的查询都可以通过合并批处理的结果来回答View和

python-2.7 - 在 spark 环境中运行 python 程序时出错

我正在使用spark1.3.0。我在sparkpythonshell中运行python程序时遇到问题。这是我提交作业的方式:/bin/spark-提交程序名.py我发现的错误是,NameError:名称'sc'未定义在那条线上。有什么想法吗?提前致谢 最佳答案 ##ImportsfrompysparkimportSparkConf,SparkContext##CONSTANTSAPP_NAME="MySparkApplication"##OTHERFUNCTIONS/CLASSES##Mainfunctionalitydefmain

hadoop - 尝试在 Spark 中使用 Jena elephas 的 TriplesInputFormat 读取 RDF 文件时出现 NullPointerException

我尝试使用ApacheJenaElephas将RDF文件加载到SparkRDD中。RDF文件是Turtle格式。代码如下。importorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.jena.hadoop.rdf.io.input.TriplesInputFormatimportorg.apache.hadoop.io.LongWritableimportorg.apache.jena.hadoop.rdf.types.TripleWritableimportorg.apache

hadoop - Spark 的 oozie 等价物是什么?

我们有非常复杂的管道,我们需要对其进行组合和调度。我看到Hadoop生态系统为此提供了Oozie。当我在Mesos或Standalone上运行Spark并且没有Hadoop集群时,基于Spark的作业有哪些选择? 最佳答案 与Hadoop不同,使用Spark链接事物非常容易。所以写一个SparkScala脚本可能就足够了。我的第一个建议是捆绑。如果你喜欢保持它像SQL一样,你可以试试SparkSQL。如果你有一个非常复杂的流程,值得看看谷歌数据流https://github.com/GoogleCloudPlatform/Dataf

hadoop - 如何在 spark 中使用 `wholeTextFile` 保存来自 `saveATextFile` RDD 的结果?

我在wholeTextFileRDD中使用spark在HDFS中创建了许多文件,我希望能够使用将它们保存在特定目录中anRDD.saveAsTextFile()问题是它会尝试创建一个全新的目录。我只想将这些结果放在现有目录中。我该怎么做呢?我已经查看了文档here,但path参数似乎没有任何改变。谢谢。 最佳答案 你有几个选择:滚动您自己的saveAsTextFile实现,不检查输出目录是否已经存在。写入临时文件夹,然后将文件移动到现有目录。RDD.saveAsTextFile使用TextOutputFormat,一种HadoopO

hadoop - 如何估计 Hortonworks Hadoop 集群上的 spark 执行器数量?

我设置了一个HortonworksHadoop集群:Hortonworks版本为2.3.2。1个NameNode,1个辅助NameNode,10个DataNodeSpark1.4.1并部署在所有数据节点上。YARN已安装。当我运行一个spark程序时,执行器只在4个节点上运行,而不是在整个数据节点上运行。如何估算此类Hadoop集群上的spark执行器数量? 最佳答案 你请求的执行者数量默认是4个,如果你想请求更多,你必须在命令行调用--num-executors=x参数或者设置spark.executors.instances在配

java - 错误 Livy Spark Server hue 3.9

我在具有HDP2.3的5台主机的集群上安装了hue3.9。我的Ambari版本是2.1.2。问题是Hue初始设置屏幕显示:SparkTheappwillnotworkwithoutarunningLivySparkServer之前出现了几个问题,但我必须解决它们。关注此主题Errorinrunninglivysparkserverinhue和这个网站http://gethue.com/new-notebook-application-for-spark,我尝试了几件事,但是当我以root用户启动livy-spark时,出现以下错误:[root@m1bin]#/usr/local/hue