草庐IT

spark-ml

全部标签

python-2.7 - 在 spark 环境中运行 python 程序时出错

我正在使用spark1.3.0。我在sparkpythonshell中运行python程序时遇到问题。这是我提交作业的方式:/bin/spark-提交程序名.py我发现的错误是,NameError:名称'sc'未定义在那条线上。有什么想法吗?提前致谢 最佳答案 ##ImportsfrompysparkimportSparkConf,SparkContext##CONSTANTSAPP_NAME="MySparkApplication"##OTHERFUNCTIONS/CLASSES##Mainfunctionalitydefmain

hadoop - 尝试在 Spark 中使用 Jena elephas 的 TriplesInputFormat 读取 RDF 文件时出现 NullPointerException

我尝试使用ApacheJenaElephas将RDF文件加载到SparkRDD中。RDF文件是Turtle格式。代码如下。importorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.jena.hadoop.rdf.io.input.TriplesInputFormatimportorg.apache.hadoop.io.LongWritableimportorg.apache.jena.hadoop.rdf.types.TripleWritableimportorg.apache

hadoop - Spark 的 oozie 等价物是什么?

我们有非常复杂的管道,我们需要对其进行组合和调度。我看到Hadoop生态系统为此提供了Oozie。当我在Mesos或Standalone上运行Spark并且没有Hadoop集群时,基于Spark的作业有哪些选择? 最佳答案 与Hadoop不同,使用Spark链接事物非常容易。所以写一个SparkScala脚本可能就足够了。我的第一个建议是捆绑。如果你喜欢保持它像SQL一样,你可以试试SparkSQL。如果你有一个非常复杂的流程,值得看看谷歌数据流https://github.com/GoogleCloudPlatform/Dataf

hadoop - 如何在 spark 中使用 `wholeTextFile` 保存来自 `saveATextFile` RDD 的结果?

我在wholeTextFileRDD中使用spark在HDFS中创建了许多文件,我希望能够使用将它们保存在特定目录中anRDD.saveAsTextFile()问题是它会尝试创建一个全新的目录。我只想将这些结果放在现有目录中。我该怎么做呢?我已经查看了文档here,但path参数似乎没有任何改变。谢谢。 最佳答案 你有几个选择:滚动您自己的saveAsTextFile实现,不检查输出目录是否已经存在。写入临时文件夹,然后将文件移动到现有目录。RDD.saveAsTextFile使用TextOutputFormat,一种HadoopO

hadoop - 如何估计 Hortonworks Hadoop 集群上的 spark 执行器数量?

我设置了一个HortonworksHadoop集群:Hortonworks版本为2.3.2。1个NameNode,1个辅助NameNode,10个DataNodeSpark1.4.1并部署在所有数据节点上。YARN已安装。当我运行一个spark程序时,执行器只在4个节点上运行,而不是在整个数据节点上运行。如何估算此类Hadoop集群上的spark执行器数量? 最佳答案 你请求的执行者数量默认是4个,如果你想请求更多,你必须在命令行调用--num-executors=x参数或者设置spark.executors.instances在配

java - 错误 Livy Spark Server hue 3.9

我在具有HDP2.3的5台主机的集群上安装了hue3.9。我的Ambari版本是2.1.2。问题是Hue初始设置屏幕显示:SparkTheappwillnotworkwithoutarunningLivySparkServer之前出现了几个问题,但我必须解决它们。关注此主题Errorinrunninglivysparkserverinhue和这个网站http://gethue.com/new-notebook-application-for-spark,我尝试了几件事,但是当我以root用户启动livy-spark时,出现以下错误:[root@m1bin]#/usr/local/hue

hadoop - 在使用 ./spark-ec2 部署的集群上更改 JDK

我已经使用Spark部署了一个AmazonEC2集群,如下所示:~/spark-ec2-kspark-i~/.ssh/spark.pem-s2--region=eu-west-1--spark-version=1.3.1launchspark-cluster我先将我需要的文件复制到master,然后从master复制到HDFS,使用:ephemeral-hdfs/bin/hadoopfs-put~/ANTICOR_2_10000.txt~/user/root/ANTICOR_2_10000.txt我有一个我想运行的jar,它是用JDK8编译的(我使用了很多Java8特性)所以我用scp

scala - Yarn 集群模式下 Spark 作业的 ClassNotFoundException

所以我试图在通过Oozie工作流启动的Yarn-cluster模式下运行Spark作业,但遇到了以下错误(下面的相关堆栈跟踪)java.sql.SQLException:ERROR103(08004):Unabletoestablishconnection.atorg.apache.phoenix.exception.SQLExceptionCode$Factory$1.newException(SQLExceptionCode.java:388)atorg.apache.phoenix.exception.SQLExceptionInfo.buildException(SQLExce

scala - 如何在 Scala 中从 Spark 检索和更新 HBase 表

似乎没有适当的资源或文档或书籍可用于访问HBase表,就像我们为HIVe所做的那样,我正在创建Hbase配置和扫描并尝试Put但缺少一些链接如何做到这一点(只是从论坛复制和粘贴和github但无法理解),任何人都可以发布端到端代码来详细检索和更新Hbase表吗??或推荐从spark访问的任何Hbase书籍/博客 最佳答案 你可以引用下面的问题:HowtoreadfromhbaseusingSpark还可以使用以下库来编写数据:SparkHBaseconnector它有一个很好的关于读取和写入数据到Hbase的文档,而且如果你擅长SQ

linux -/usr/bin/time 使用 SPARK 时针对 TOP 的 CPU 利用率

我使用Spark中的MLIB库对大小为8G和700万行的数据运行了SVM算法。我在单个节点上以独立模式运行Spark。我使用/usr/bin/time-v来捕获有关作业的数据。我得到了峰值内存利用率和%CPU时间等等。我得到的CPU使用率百分比仅为6%。我在程序运行的同时监视TOP一段时间,我可以看到超过100%几乎始终如一地被使用。我现在很困惑,为什么/usr/bin/time只显示了6%?更多细节-我的机器是16G,我运行的程序消耗了13.88G。程序执行时间为2.1小时。任何见解,任何人? 最佳答案 我发现了问题。因此,usr