PySpark3_草庐IT

python - PySpark DataFrame 上的 Sum 操作在类型正常时给出 TypeError

我在PySpark中有这样的DataFrame(这是一次take(3)的结果，dataframe很大):sc=SparkContext()df=[Row(owner=u'u1',a_d=0.1),Row(owner=u'u2',a_d=0.0),Row(owner=u'u1',a_d=0.3)]相同的owner将有更多的行。我需要做的是在分组后对每个所有者的字段a_d的值求和，如b=df.groupBy('owner').agg(sum('a_d').alias('a_d_sum'))但这会引发错误TypeError:unsupportedoperandtype(s)for+:'int

常时 DataFrame code 39 owner python apache-spark pyspark

python - 如何使用pyspark在cassandra数据上创建RDD对象

我正在使用cassandra2.0.3，我想使用pyspark(ApacheSparkPythonAPI)从cassandra数据创建一个RDD对象。请注意:我不想导入CQL，然后从pysparkAPI进行CQL查询，而是想创建一个RDD，我想在其上进行一些转换。我知道这可以在Scala中完成，但我无法找出如何从pyspark中完成。如果有人能指导我，我将不胜感激。最佳答案可能与您不再相关，但我一直在寻找相同的东西，但找不到任何让我满意的东西。所以我做了一些工作:https://github.com/TargetHolding/

cassandra pyspark section python scala pycassa apache-spark

python - PySpark 中的随机数生成

让我们从一个总是返回随机整数的简单函数开始:importnumpyasnpdeff(x):returnnp.random.randint(1000)和一个用0填充并使用f映射的RDD:rdd=sc.parallelize([0]*10).map(f)由于上面的RDD没有持久化，我希望每次收集时我都会得到不同的输出:>rdd.collect()[255,512,512,512,255,512,255,512,512,255]如果我们忽略值的分布看起来并不是真正随机的事实，它或多或少会发生这种情况。当我们只取第一个元素时，问题就开始了:assertlen(set(rdd.first()fo

PySpark python code pre section random apache-spark rdd

python - 如何获取pyspark数据框中具有最大值的列的名称

我们如何获取列pyspark数据框的名称？AliceEleonoraMikeHelenMAX02786Mike111594Alice2615123Eleonora35378Helen我需要这样的东西。列的名称没有最大值，我能够获得最大值，我需要名称最佳答案您可以链接条件以查找哪些列等于最大值:cond="psf.when"+".when".join(["(psf.col('"+c+"')==psf.col('max_value'),psf.lit('"+c+"'))"forcindf.columns])importpyspark

pyspark python 34 code psf dataframe

python - 使用 pyspark 提交作业时，如何访问使用 --files 参数上传的静态文件？

例如我有一个文件夹:/-test.py-test.yml作业被提交到spark集群:gcloudbetadataproc作业提交pyspark--files=test.yml"test.py"在test.py中，我想访问我上传的静态文件。withopen('test.yml')astest_file:logging.info(test_file.read())但出现以下异常:IOError:[Errno2]Nosuchfileordirectory:'test.yml'如何访问我上传的文件？最佳答案可以通过SparkFiles访

pyspark python code test section apache-spark google-cloud-dataproc

python - 从 PySpark 连接到 S3 数据

我正在尝试从Amazons3读取一个JSON文件，以创建一个spark上下文并使用它来处理数据。Spark基本上是在一个docker容器中。所以把文件放在docker路径也是PITA。因此将其推到S3。下面的代码解释了其余的内容。frompysparkimportSparkContext,SparkConfconf=SparkConf().setAppName("first")sc=SparkContext(conf=conf)config_dict={"fs.s3n.awsAccessKeyId":"**","fs.s3n.awsSecretAccessKey":"**"}bucke

PySpark python apache java hadoop amazon-s3 apache-spark

python - PySpark 计算关联

我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。corr函数期望采用Vectors对象的rdd。如何将df['some_name']的列转换为Vectors.dense对象的rdd？最佳答案应该没有这个必要。对于数值，您可以直接使用DataFrameStatFunctions.corr计算相关性:df1=sc.parallelize([(0.0,1.0),(1.0,0.0)]).toDF(["x","y"]

PySpark python code section 34 apache-spark apache-spark-sql apache-spark-mllib

python - PySpark 从本地函数广播变量

我正在尝试从Python方法中创建广播变量(尝试抽象一些我正在创建的依赖于分布式操作的实用方法)。但是，我似乎无法从Sparkworker中访问广播变量。假设我有这个设置:defmain():sc=SparkContext()SomeMethod(sc)defSomeMethod(sc):someValue=rand()V=sc.broadcast(someValue)A=sc.parallelize().map(worker)defworker(element):element*=V.value###NameError:globalname'V'isnotdefined###但是，如

PySpark python code section worker apache-spark

python - PySpark 1.5 如何将时间戳从秒截断到最近的分钟

我正在使用PySpark。我在数据框('canon_evt')中有一列('dt')，这是一个时间戳。我正在尝试从DateTime值中删除秒数。它最初是作为字符串从parquet读入的。然后我尝试通过将其转换为时间戳canon_evt=canon_evt.withColumn('dt',to_date(canon_evt.dt))canon_evt=canon_evt.withColumn('dt',canon_evt.dt.astype('Timestamp'))然后我想删除秒。我尝试了“trunc”、“date_format”，甚至尝试像下面这样将片段连接在一起。我认为它需要某种映射

PySpark python 39 canon_evt 00 datetime apache-spark apache-spark-sql

python - 如何获得相关矩阵值pyspark

我有一个在pyspark2.2上计算如下的相关矩阵:frompyspark.ml.linalgimportVectorsfrompyspark.ml.statimportCorrelationfrompyspark.ml.linalgimportVectorsfrompyspark.ml.featureimportVectorAssemblerdatos=sql("""select*fromproceso_riesgos.jdgc_bd_train_mn_ingresos""")Variables_corr=['ingreso_final_mix','ingreso_final_pro

pyspark python section corr 39 apache-spark