spark-submit

hadoop - Apache Spark 中的错误称为输入路径不存在

ApacheSpark中是否有任何算法可以找出文本文件中的频繁模式。我尝试了以下示例，但总是以这个错误结束:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:file:/D:/spark-1.3.1-bin-hadoop2.6/bin/data/mllib/sample_fpgrowth.txt谁能帮我解决这个问题？importorg.apache.spark.mllib.fpm.FPGrowthvaltransactions=sc.textFile("...").map(_.split("")).

称为 hadoop section code

hadoop - 将 Spark 和 Hadoop 配置文件添加到 JAR？

我有一个Spark应用程序，我想使用配置文件对其进行配置，例如Spark的spark-defaults.conf、HBase的hbase-site.xml和log4j的log4j.properties。我还想避免必须以编程方式添加文件。我尝试将文件添加到我的JAR(在/和/conf路径下)但是当我运行spark-submit配置时文件似乎没有任何影响。为了进一步检查我的声明，我尝试使用相同的JAR运行spark-shell并检查文件的内容，我发现它们被来自其他位置的文件覆盖:/spark-defaults.conf和/log4j.properties完全不同，而/conf/hbase-

hadoop code spark section apache-spark cloudera

hadoop - Spark 作业的输出可以用作另一个 Spark 作业的输入吗？

我想将一个Spark作业的输出用作其他Spark作业的输入数据。可能吗？最佳答案是的。只要输出存储在某处。关于hadoop-Spark作业的输出可以用作另一个Spark作业的输入吗？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/32899311/

Spark 用作 section stackoverflow hadoop apache-spark real-time spark-streaming pyspark

java - 使用 Hadoop、Apache Spark、HBase 实现 lambda 架构

我想用一个简单的例子来实现lambda架构。我无法将我的技术堆栈融入lambda架构的每一层。我想实时找出Twitter推文中的前10个热门主题标签。我列出了来自http://lambda-architecture.net/的每一层野兔的用途.所有进入系统的数据被分派(dispatch)到批处理层以及用于处理的速度层。批处理层有两个功能:(i)管理主数据集(一组不可变的，仅附加的原始数据集)，以及(ii)预先计算批处理View。服务层索引批量View，以便可以查询它们以低延迟、特别的方式。速度层补偿更新到服务层，只处理最近的数据。任何传入的查询都可以通过合并批处理的结果来回答View和

Hadoop Apache strong section lambda java apache-spark spark-streaming lambda-architecture

python-2.7 - 在 spark 环境中运行 python 程序时出错

我正在使用spark1.3.0。我在sparkpythonshell中运行python程序时遇到问题。这是我提交作业的方式:/bin/spark-提交程序名.py我发现的错误是，NameError:名称'sc'未定义在那条线上。有什么想法吗？提前致谢最佳答案 ##ImportsfrompysparkimportSparkConf,SparkContext##CONSTANTSAPP_NAME="MySparkApplication"##OTHERFUNCTIONS/CLASSES##Mainfunctionalitydefmain

中运时出 section spark python-2.7 hadoop apache-spark pyspark

hadoop - 尝试在 Spark 中使用 Jena elephas 的 TriplesInputFormat 读取 RDF 文件时出现 NullPointerException

我尝试使用ApacheJenaElephas将RDF文件加载到SparkRDD中。RDF文件是Turtle格式。代码如下。importorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.jena.hadoop.rdf.io.input.TriplesInputFormatimportorg.apache.hadoop.io.LongWritableimportorg.apache.jena.hadoop.rdf.types.TripleWritableimportorg.apache

时出 NullPointerException 11 INFO 15 hadoop apache-spark rdf jena

hadoop - Spark 的 oozie 等价物是什么？

我们有非常复杂的管道，我们需要对其进行组合和调度。我看到Hadoop生态系统为此提供了Oozie。当我在Mesos或Standalone上运行Spark并且没有Hadoop集群时，基于Spark的作业有哪些选择？最佳答案与Hadoop不同，使用Spark链接事物非常容易。所以写一个SparkScala脚本可能就足够了。我的第一个建议是捆绑。如果你喜欢保持它像SQL一样，你可以试试SparkSQL。如果你有一个非常复杂的流程，值得看看谷歌数据流https://github.com/GoogleCloudPlatform/Dataf

等价物 hadoop section Spark https apache-spark bigdata apache-spark-1.5

hadoop - 如何在 spark 中使用 `wholeTextFile` 保存来自 `saveATextFile` RDD 的结果？

我在wholeTextFileRDD中使用spark在HDFS中创建了许多文件，我希望能够使用将它们保存在特定目录中anRDD.saveAsTextFile()问题是它会尝试创建一个全新的目录。我只想将这些结果放在现有目录中。我该怎么做呢？我已经查看了文档here，但path参数似乎没有任何改变。谢谢。最佳答案你有几个选择:滚动您自己的saveAsTextFile实现，不检查输出目录是否已经存在。写入临时文件夹，然后将文件移动到现有目录。RDD.saveAsTextFile使用TextOutputFormat，一种HadoopO

saveATextFile wholeTextFile code section saveAsTextFile hadoop apache-spark hdfs pyspark

hadoop - 如何估计 Hortonworks Hadoop 集群上的 spark 执行器数量？

我设置了一个HortonworksHadoop集群:Hortonworks版本为2.3.2。1个NameNode，1个辅助NameNode，10个DataNodeSpark1.4.1并部署在所有数据节点上。YARN已安装。当我运行一个spark程序时，执行器只在4个节点上运行，而不是在整个数据节点上运行。如何估算此类Hadoop集群上的spark执行器数量？最佳答案你请求的执行者数量默认是4个，如果你想请求更多，你必须在命令行调用--num-executors=x参数或者设置spark.executors.instances在配

Hortonworks hadoop section spark apache-spark hadoop-yarn hortonworks-data-platform

java - 错误 Livy Spark Server hue 3.9

我在具有HDP2.3的5台主机的集群上安装了hue3.9。我的Ambari版本是2.1.2。问题是Hue初始设置屏幕显示:SparkTheappwillnotworkwithoutarunningLivySparkServer之前出现了几个问题，但我必须解决它们。关注此主题Errorinrunninglivysparkserverinhue和这个网站http://gethue.com/new-notebook-application-for-spark，我尝试了几件事，但是当我以root用户启动livy-spark时，出现以下错误:[root@m1bin]#/usr/local/hue

Server Spark section hue java hadoop apache-spark bigdata

209 210 211212213 214 215