spark-submit

azure - hdinsight actionscript 安装 spark 1.2

有谁知道如何为hdisights创建ActionScript？我现在正在使用actoinscript安装spark1.0.2，但希望集群上的spark1.2.x获得更多的配置单元支持。我读过ScriptActionDevelopmentwithHDInsight当我尝试通过修改Microsoft提供的actionscript使用1.2创建spark集群时。这样做之后我得到一个错误，spark不理解文件url'wasb://'并且它需要采用'hdfs://'格式。在文章中它谈到了ConfigurethecustomcomponentstouseWASB它说:Thecustomcompon

scala - 来自 Spark 的 Hive 查询 - 解析失败

我正在尝试在spark-shell中执行此操作:valhiveCtx=neworg.apache.spark.sql.hive.HiveContext(sc)vallistTables=hiveCtx.hql("showtables")第二行执行失败并显示此消息:warning:therewere1deprecationwarning(s);re-runwith-deprecationfordetailsorg.apache.spark.sql.hive.HiveQl$ParseException:Failedtoparse:showtablesatorg.apache.spark.s

scala Spark apache hive hadoop apache-spark hiveql

python - Spark .stdev() Python 问题

所以我正在尝试做一些统计分析，我一直在做sum与stdev有点不同。Sum可以像这样正常工作:stats[0]=myData2.map(lambda(Column,values):(sum(values))).collect()Stdev的格式不同，无法正常工作:stats[4]=myData2.map(lambda(Column,values):(values)).stdev()我收到以下错误:TypeError:unsupportedoperandtype(s)for-:'ResultIterable'and'float' 最佳答案

python sum section code hadoop apache-spark

python - 具有一些空值的数组上的 Spark Stats

我有以下代码:myData3=myData.map(lambdaline:line.split(',')).map(lambdafields:("Column",float(fields[0]))).map(lambda(column,value):(value)).persist(StorageLevel.MEMORY_AND_DISK)我将if语句放在那里是因为现在我有一些包含整列的数据集。float(fields[0])映射在遇到任何null时会导致错误。如何编写spark代码以允许我获取示例数组:[1,2,3,4,,5,,19]并处理它？最佳答案

具有一 python section fields map hadoop apache-spark

hadoop - Apache Spark 将文件与 SQL 数据进行比较

我将使用ApacheSpark处理大文本文件，其中处理周期是将文本部分与大SQL表中的数据进行比较的一部分。任务是:1)Processfilesandbreaktextintopieces2)Comparepieceswithdatabaseones瓶颈肯定是SQL。我是ApacheSpark的新手，虽然我确定Subtask#1是“他的人”，但我不完全确定子任务#2可以由Spark处理(我的意思是，以高效的方式)。问题是Spark如何在并行和分布式环境中处理来自大SQL的可迭代选择(也许，尽可能多地缓存？)？最佳答案作为每个请求

hadoop Apache code section Spark parallel-processing apache-spark

hadoop - Google Compute Engine 问题上的 Spark SQL

我们正在使用bdutil1.1部署Spark(1.2.0)集群。但是，我们在启动spark脚本时遇到了问题:py4j.protocol.Py4JJavaError:Anerroroccurredwhilecallingo70.registerTempTable.:java.lang.RuntimeException:java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.metastore.HiveMetaStoreClientatorg.apache.hadoop.hive.ql.session.Ses

Compute hadoop HiveContext spark apache apache-spark google-compute-engine google-cloud-platform google-hadoop

hadoop - 如何在具有单节点(CentOS)Yarn 集群的单机(CentOS)上安装 spark

作为一个hadoop/Spark初学者，我已经按照这个website中的教程进行操作。并成功地在我的单机(CentOS6)上部署了一个hadoop框架。现在我想在同一台机器上也安装Spark1.2，让它与我机器上的单节点Yarn集群一起工作，这意味着在我的单机上对存储在hdfs上的文件执行SparkSQL并将结果输出到hdfs。对于所需的其余步骤，我没有在网上找到针对此场景的好教程。我目前所做的是:(1)从Scala官网下载并安装了scala2.9.3。“scala-version”命令有效!(2)从ApacheSpark网站下载Spark1.2.1(为Hadoop2.4或更高版本预构

CentOS 何在 spark section hadoop apache-spark

hadoop - 用于查询 HDFS 上的数据的纯 spark 与 spark SQL

我在hdfs集群上有(表格)数据，需要对其进行一些稍微复杂的查询。我预计将来会用其他数据多次面对同样的情况。所以，问题:在执行此类任务时选择在何处使用(纯)Spark以及在何处使用Spark-SQL时要考虑哪些因素？以下是我能想到的选择因素:熟悉语言:在我的例子中，我更像是一个数据分析师而不是一个数据库专家，所以这会导致我使用spark:与在SQL中相比，我更愿意思考如何(有效地)在Java/Scala中实现数据选择。然而，这主要取决于查询。序列化:我认为无需将自制的jar+dep发送给sparkworker(？)就可以运行Spark-SQL查询。但是，返回的数据是原始数据，应该在本地

spark hadoop section strong apache-spark apache-spark-sql

hadoop - 为什么 Spark 运行多个进程？

最近我遇到了Spark的问题。我在小型集群(4个节点)上工作，我看到spark正在运行(经过一些更复杂的计算)第二个进程，它在这个节点上引起了一些奇怪的问题，例如:5/04/2208:54:37WARNTaskSetManager:Losttask2.1instage10.0(TID52,hadoop1.itx.pl):java.lang.NoSuchMethodError:clojure.lang.Reflector.invokeNoArgInstanceMember(Ljava/lang/Object;Ljava/lang/String;Z)Ljava/lang/Object;我不

hadoop Spark section lang noreferrer clojure apache-spark

hadoop - 无法提交 spark python 脚本

我正在使用以下脚本提交python脚本#!/usr/bin/pythonfrompyspark.mllib.classificationimportLogisticRegressionWithSGDfrompyspark.mllib.regressionimportLabeledPointfromnumpyimportarrayfrompysparkimportSparkContextassc,SparkConfdata=sc.textFile("hdfs:/dataset/parkinsons.data")得到这个错误:data=sc.textFile("hdfs:/dataset/

hadoop python section SparkContext import apache-spark

178 179 180181182 183 184