pyspark-dataframes

python - pandas:将一系列 DataFrame 转换为单个 DataFrame

我有一个pandasSeries对象，每个值都是一个DataFrame。我正在尝试将其转换为单个DataFrame，所有Series值(单个DataFrame)相互堆叠。如何在没有循环的情况下实现这一点？下面的玩具示例可生成测试对象(结果)。importpandasaspdimportnumpyasnpnumrows=10000deftoy_function(x):silly_sequence=np.random.uniform(10,100,(x+1))toy=pd.DataFrame({'ID':pd.Series(np.random.random_integers(1,20,3)

python - pyspark: groupby 然后获取每个组的最大值

我想按一个值分组，然后使用PySpark找到每个组中的最大值。我有以下代码，但现在我对如何提取最大值有点困惑。#somefilecontainstuples('user','item','occurrences')data_file=sc.textData('file:///some_file.txt')#CreatethetripletsoIindexstuffdata_file=data_file.map(lambdal:l.split()).map(lambdal:(l[0],l[1],float(l[2])))#Groupbytheuseri.e.r[0]grouped=dat

pyspark groupby 39 code section python apache-spark rdd

python - pyspark : Convert DataFrame to RDD[string]

我想将pyspark.sql.dataframe.DataFrame转换为pyspark.rdd.RDD[String]我将DataFramedf转换为RDDdata:data=df.rddtype(data)##pyspark.rdd.RDD新的RDDdata包含Rowfirst=data.first()type(first)##pyspark.sql.types.Rowdata.first()Row(_c0=u'aaa',_c1=u'bbb',_c2=u'ccc',_c3=u'ddd')我想将Row转换为String列表，如下例所示:u'aaa',u'bbb',u'ccc',u'd

DataFrame pyspark code section 39 python apache-spark apache-spark-sql

python - PySpark 按条件计算值

我有一个DataFrame，这里有一个片段:[['u1',1],['u2',0]]基本上是一个名为f的字符串字段，第二个元素为1或0(is_fav)。我需要做的是在第一个字段上分组并计算1和0的出现次数。我希望做类似的事情num_fav=count((col("is_fav")==1)).alias("num_fav")num_nonfav=count((col("is_fav")==0)).alias("num_nonfav")df.groupBy("f").agg(num_fav,num_nonfav)它不能正常工作，在这两种情况下我得到的结果相同，相当于组中项目的计数，因此过滤器

PySpark python code 34 is_fav apache-spark

Python/Pandas Dataframe 将 0 替换为中值

我有一个包含多列的pythonpandas数据框，其中一列有0值。我想用此列的median或mean替换0值。data是我的数据框artist_hotness是列mean_artist_hotness=data['artist_hotness'].dropna().mean()iflen(data.artist_hotness[data.artist_hotness.isnull()])>0:data.artist_hotness.loc[(data.artist_hotness.isnull()),'artist_hotness']=mean_artist_hotness我试过了，但

中值 Dataframe code artist_hotness hotness python pandas mean median

python - Pandas dataframe.query 方法语法

问题:我想更好地了解PandasDataFrame.query方法以及以下表达式代表什么:match=dfDays.query('index>@x.name&price>=@x.target')@x.name代表什么？我了解此代码的结果输出是什么(一个包含pandas.tslib.Timestamp数据的新列)，但不清楚用于获得此最终结果的表达式。数据:从这里开始:Vectorisedwaytoquerydateandpricedatanp.random.seed(seed=1)rng=pd.date_range('1/1/2000','2000-07-31',freq='D')wee

dataframe python code query section pandas

python - 如何从 print() 编写的字符串中获取 Python pandas DataFrame？

这是提供方便功能的问题的更新版本pd_read_printed(str_printed_df)旨在从之前使用print(some_pandas_DataFrame)编写的字符串中创建一个pandasDataFrame:defpd_read_printed(str_printed_df):globalpd,StringIOtry:x=pdexcept:importpandasaspdtry:x=StringIOexcept:frompandas.compatimportStringIOreturnpd.read_csv(StringIO(str_printed_df),delim_whi

DataFrame 编写 code pandas pre python string python-3.x csv

python - 使用 pyspark 创建 spark 数据框时出现 Py4J 错误

我已经用python3.6安装了pyspark，我正在使用jupyternotebook来初始化sparksession。frompyspark.sqlimportSparkSessionspark=SparkSession.builder.appName("test").enableHieSupport.getOrCreate()运行没有任何错误但是我写，df=spark.range(10)df.show()它抛出一个错误-->Py4JError:Anerroroccurredwhilecallingo54.showString.Trace:py4j.Py4JException:Me

时出 pyspark section java code python apache-spark

python - PySpark:在 RDD 中使用对象

我目前正在学习Python，并希望将其应用到Spark上或与Spark结合使用。我有这个非常简单(且无用)的脚本:importsysfrompysparkimportSparkContextclassMyClass:def__init__(self,value):self.v=str(value)defaddValue(self,value):self.v+=str(value)defgetValue(self):returnself.vif__name__=="__main__":iflen(sys.argv)!=1:print("UsageCC")exit(-1)data=[1,2

PySpark python code MyClass apache-spark

python - Python 中 Dataframe 中每一行之间的余弦相似度

我有一个包含多个向量的DataFrame，每个向量有3个条目。在我的表示中，每一行都是一个向量。我需要计算每个向量之间的余弦相似度。将其转换为矩阵表示更好，还是DataFrame本身有更简洁的方法？这是我试过的代码。importpandasaspdfromscipyimportspatialdf=pd.DataFrame([X,Y,Z]).Tsimilarities=df.values.tolist()forxinsimilarities:foryinsimilarities:result=1-spatial.distance.cosine(x,y) 最佳答

Dataframe python section cosine_similarity 0.40824829 pandas scikit-learn