sparking

python - Spark .stdev() Python 问题

所以我正在尝试做一些统计分析，我一直在做sum与stdev有点不同。Sum可以像这样正常工作:stats[0]=myData2.map(lambda(Column,values):(sum(values))).collect()Stdev的格式不同，无法正常工作:stats[4]=myData2.map(lambda(Column,values):(values)).stdev()我收到以下错误:TypeError:unsupportedoperandtype(s)for-:'ResultIterable'and'float' 最佳答案

python - 具有一些空值的数组上的 Spark Stats

我有以下代码:myData3=myData.map(lambdaline:line.split(',')).map(lambdafields:("Column",float(fields[0]))).map(lambda(column,value):(value)).persist(StorageLevel.MEMORY_AND_DISK)我将if语句放在那里是因为现在我有一些包含整列的数据集。float(fields[0])映射在遇到任何null时会导致错误。如何编写spark代码以允许我获取示例数组:[1,2,3,4,,5,,19]并处理它？最佳答案

具有一 python section fields map hadoop apache-spark

hadoop - Apache Spark 将文件与 SQL 数据进行比较

我将使用ApacheSpark处理大文本文件，其中处理周期是将文本部分与大SQL表中的数据进行比较的一部分。任务是:1)Processfilesandbreaktextintopieces2)Comparepieceswithdatabaseones瓶颈肯定是SQL。我是ApacheSpark的新手，虽然我确定Subtask#1是“他的人”，但我不完全确定子任务#2可以由Spark处理(我的意思是，以高效的方式)。问题是Spark如何在并行和分布式环境中处理来自大SQL的可迭代选择(也许，尽可能多地缓存？)？最佳答案作为每个请求

hadoop Apache code section Spark parallel-processing apache-spark

hadoop - Google Compute Engine 问题上的 Spark SQL

我们正在使用bdutil1.1部署Spark(1.2.0)集群。但是，我们在启动spark脚本时遇到了问题:py4j.protocol.Py4JJavaError:Anerroroccurredwhilecallingo70.registerTempTable.:java.lang.RuntimeException:java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.metastore.HiveMetaStoreClientatorg.apache.hadoop.hive.ql.session.Ses

Compute hadoop HiveContext spark apache apache-spark google-compute-engine google-cloud-platform google-hadoop

hadoop - 如何在具有单节点(CentOS)Yarn 集群的单机(CentOS)上安装 spark

作为一个hadoop/Spark初学者，我已经按照这个website中的教程进行操作。并成功地在我的单机(CentOS6)上部署了一个hadoop框架。现在我想在同一台机器上也安装Spark1.2，让它与我机器上的单节点Yarn集群一起工作，这意味着在我的单机上对存储在hdfs上的文件执行SparkSQL并将结果输出到hdfs。对于所需的其余步骤，我没有在网上找到针对此场景的好教程。我目前所做的是:(1)从Scala官网下载并安装了scala2.9.3。“scala-version”命令有效!(2)从ApacheSpark网站下载Spark1.2.1(为Hadoop2.4或更高版本预构

CentOS 何在 spark section hadoop apache-spark

hadoop - 用于查询 HDFS 上的数据的纯 spark 与 spark SQL

我在hdfs集群上有(表格)数据，需要对其进行一些稍微复杂的查询。我预计将来会用其他数据多次面对同样的情况。所以，问题:在执行此类任务时选择在何处使用(纯)Spark以及在何处使用Spark-SQL时要考虑哪些因素？以下是我能想到的选择因素:熟悉语言:在我的例子中，我更像是一个数据分析师而不是一个数据库专家，所以这会导致我使用spark:与在SQL中相比，我更愿意思考如何(有效地)在Java/Scala中实现数据选择。然而，这主要取决于查询。序列化:我认为无需将自制的jar+dep发送给sparkworker(？)就可以运行Spark-SQL查询。但是，返回的数据是原始数据，应该在本地

spark hadoop section strong apache-spark apache-spark-sql

hadoop - 为什么 Spark 运行多个进程？

最近我遇到了Spark的问题。我在小型集群(4个节点)上工作，我看到spark正在运行(经过一些更复杂的计算)第二个进程，它在这个节点上引起了一些奇怪的问题，例如:5/04/2208:54:37WARNTaskSetManager:Losttask2.1instage10.0(TID52,hadoop1.itx.pl):java.lang.NoSuchMethodError:clojure.lang.Reflector.invokeNoArgInstanceMember(Ljava/lang/Object;Ljava/lang/String;Z)Ljava/lang/Object;我不

hadoop Spark section lang noreferrer clojure apache-spark

hadoop - 无法提交 spark python 脚本

我正在使用以下脚本提交python脚本#!/usr/bin/pythonfrompyspark.mllib.classificationimportLogisticRegressionWithSGDfrompyspark.mllib.regressionimportLabeledPointfromnumpyimportarrayfrompysparkimportSparkContextassc,SparkConfdata=sc.textFile("hdfs:/dataset/parkinsons.data")得到这个错误:data=sc.textFile("hdfs:/dataset/

hadoop python section SparkContext import apache-spark

hadoop - Apache spark 1.2.1 独立集群中的剂量， 'number of executors equals to number of SPARK_WORKER_INSTANCES'？

Apachespark1.2.1Standalone集群中的Dose，“执行程序的数量等于SPARK_WORKER_INSTANCES的数量”？Ihavedonebelowsettinginconf/spark-env.shSPARK_EXECUTOR_CORES=4SPARK_NUM_EXECUTORS=3SPARK_EXECUTOR_MEMORY=2G如果没有，谁能告诉我如何增加独立集群中的执行程序数量？提前致谢。最佳答案在独立模式下，总执行器数量等于集群中的总工作器数量。spark-env.sh中的SPARK_WORKER

number SPARK_WORKER_INSTANCES code section SPARK hadoop apache-spark

hadoop - Spark 元组获取每个键的详细信息/rdd

我有这些行:(key1,Illinois|111|67342|...)(key1,Illinois|121|67142|...)(key2,Hawaii|113|67343|...)(key1,Illinois|211|67442|...)(key3,Hawaii|153|66343|...)(key3,Ohio|193|68343|...)(1)如何获得唯一key？(2)如何获取每个键的行数(键1-3行，键2-1行，键3-2行...因此输出为:3,1,2)(3)如何获取每个键的行的字节大小(5MB,2MB,3MB)编辑1.这是我的新代码:valrdd:RDD[(String,Arra

hadoop Spark code rdd row mapreduce apache-spark

166 167 168169170 171 172