草庐IT

sparking

全部标签

python - Spark .stdev() Python 问题

所以我正在尝试做一些统计分析,我一直在做sum与stdev有点不同。Sum可以像这样正常工作:stats[0]=myData2.map(lambda(Column,values):(sum(values))).collect()Stdev的格式不同,无法正常工作:stats[4]=myData2.map(lambda(Column,values):(values)).stdev()我收到以下错误:TypeError:unsupportedoperandtype(s)for-:'ResultIterable'and'float' 最佳答案

python - 具有一些空值的数组上的 Spark Stats

我有以下代码:myData3=myData.map(lambdaline:line.split(',')).map(lambdafields:("Column",float(fields[0]))).map(lambda(column,value):(value)).persist(StorageLevel.MEMORY_AND_DISK)我将if语句放在那里是因为现在我有一些包含整列的数据集。float(fields[0])映射在遇到任何null时会导致错误。如何编写spark代码以允许我获取示例数组:[1,2,3,4,,5,,19]并处理它? 最佳答案

hadoop - Apache Spark 将文件与 SQL 数据进行比较

我将使用ApacheSpark处理大文本文件,其中处理周期是将文本部分与大SQL表中的数据进行比较的一部分。任务是:1)Processfilesandbreaktextintopieces2)Comparepieceswithdatabaseones瓶颈肯定是SQL。我是ApacheSpark的新手,虽然我确定Subtask#1是“他的人”,但我不完全确定子任务#2可以由Spark处理(我的意思是,以高效的方式)。问题是Spark如何在并行和分布式环境中处理来自大SQL的可迭代选择(也许,尽可能多地缓存?)? 最佳答案 作为每个请求

hadoop - Google Compute Engine 问题上的 Spark SQL

我们正在使用bdutil1.1部署Spark(1.2.0)集群。但是,我们在启动spark脚本时遇到了问题:py4j.protocol.Py4JJavaError:Anerroroccurredwhilecallingo70.registerTempTable.:java.lang.RuntimeException:java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.metastore.HiveMetaStoreClientatorg.apache.hadoop.hive.ql.session.Ses

hadoop - 如何在具有单节点(CentOS)Yarn 集群的单机(CentOS)上安装 spark

作为一个hadoop/Spark初学者,我已经按照这个website中的教程进行操作。并成功地在我的单机(CentOS6)上部署了一个hadoop框架。现在我想在同一台机器上也安装Spark1.2,让它与我机器上的单节点Yarn集群一起工作,这意味着在我的单机上对存储在hdfs上的文件执行SparkSQL并将结果输出到hdfs。对于所需的其余步骤,我没有在网上找到针对此场景的好教程。我目前所做的是:(1)从Scala官网下载并安装了scala2.9.3。“scala-version”命令有效!(2)从ApacheSpark网站下载Spark1.2.1(为Hadoop2.4或更高版本预构

hadoop - 用于查询 HDFS 上的数据的纯 spark 与 spark SQL

我在hdfs集群上有(表格)数据,需要对其进行一些稍微复杂的查询。我预计将来会用其他数据多次面对同样的情况。所以,问题:在执行此类任务时选择在何处使用(纯)Spark以及在何处使用Spark-SQL时要考虑哪些因素?以下是我能想到的选择因素:熟悉语言:在我的例子中,我更像是一个数据分析师而不是一个数据库专家,所以这会导致我使用spark:与在SQL中相比,我更愿意思考如何(有效地)在Java/Scala中实现数据选择。然而,这主要取决于查询。序列化:我认为无需将自制的jar+dep发送给sparkworker(?)就可以运行Spark-SQL查询。但是,返回的数据是原始数据,应该在本地

hadoop - 为什么 Spark 运行多个进程?

最近我遇到了Spark的问题。我在小型集群(4个节点)上工作,我看到spark正在运行(经过一些更复杂的计算)第二个进程,它在这个节点上引起了一些奇怪的问题,例如:5/04/2208:54:37WARNTaskSetManager:Losttask2.1instage10.0(TID52,hadoop1.itx.pl):java.lang.NoSuchMethodError:clojure.lang.Reflector.invokeNoArgInstanceMember(Ljava/lang/Object;Ljava/lang/String;Z)Ljava/lang/Object;我不

hadoop - 无法提交 spark python 脚本

我正在使用以下脚本提交python脚本#!/usr/bin/pythonfrompyspark.mllib.classificationimportLogisticRegressionWithSGDfrompyspark.mllib.regressionimportLabeledPointfromnumpyimportarrayfrompysparkimportSparkContextassc,SparkConfdata=sc.textFile("hdfs:/dataset/parkinsons.data")得到这个错误:data=sc.textFile("hdfs:/dataset/

hadoop - Apache spark 1.2.1 独立集群中的剂量, 'number of executors equals to number of SPARK_WORKER_INSTANCES'?

Apachespark1.2.1Standalone集群中的Dose,“执行程序的数量等于SPARK_WORKER_INSTANCES的数量”?Ihavedonebelowsettinginconf/spark-env.shSPARK_EXECUTOR_CORES=4SPARK_NUM_EXECUTORS=3SPARK_EXECUTOR_MEMORY=2G如果没有,谁能告诉我如何增加独立集群中的执行程序数量?提前致谢。 最佳答案 在独立模式下,总执行器数量等于集群中的总工作器数量。spark-env.sh中的SPARK_WORKER

hadoop - Spark 元组获取每个键的详细信息/rdd

我有这些行:(key1,Illinois|111|67342|...)(key1,Illinois|121|67142|...)(key2,Hawaii|113|67343|...)(key1,Illinois|211|67442|...)(key3,Hawaii|153|66343|...)(key3,Ohio|193|68343|...)(1)如何获得唯一key?(2)如何获取每个键的行数(键1-3行,键2-1行,键3-2行...因此输出为:3,1,2)(3)如何获取每个键的行的字节大小(5MB,2MB,3MB)编辑1.这是我的新代码:valrdd:RDD[(String,Arra