草庐IT

pyspark-dataframes

全部标签

python - 将 SKLearn 癌症数据集加载到 Pandas DataFrame 中

我正在尝试根据键(target_names、target和DESCR)加载sklearn.dataset,但缺少一列。我尝试了各种方法来包含最后一列,但有错误。importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_breast_cancercancer=load_breast_cancer()printcancer.keys()thekeysare['target_names','data','target','DESCR','feature_names']data=pd.DataFrame(cancer.data,

python - 如何根据 PySpark 中的数组值进行过滤?

我的架构:|--Canonical_URL:string(nullable=true)|--Certifications:array(nullable=true)||--element:struct(containsNull=true)|||--Certification_Authority:string(nullable=true)|||--End:string(nullable=true)|||--License:string(nullable=true)|||--Start:string(nullable=true)|||--Title:string(nullable=true)

python - 推断 Pandas DataFrame 中的值

在PandasDataFrame中插入NaN单元非常容易:In[98]:dfOut[98]:negneuposavg2500.5084750.5270270.6412920.558931500NaNNaNNaNNaN10000.6500000.5714290.6539830.6251372000NaNNaNNaNNaN30000.6197180.6631580.6654680.6494484000NaNNaNNaNNaN6000NaNNaNNaNNaN8000NaNNaNNaNNaN10000NaNNaNNaNNaN20000NaNNaNNaNNaN30000NaNNaNNaNNaN5

python - 从 Pandas Groupby Dataframe 创建等高线图

我有以下Pandas数据框:In[66]:hdf.size()Out[66]:ab00.0210040.11199030.21865790.34173490.42027230.51009060.6563860.760800.835960.923911.019631.117301.216631.316141.41309...1860.2150.390.4210.541870.230.3100.4220.5101880.0110.1190.2200.3130.470.550.61Length:4572,dtype:int64你看,a从0...188和b在每个组中从某个值到某个值。并且作为指

python - DataFrame 按组计算每只股票的对数返回

例如,我创建了一个如下所示的数据框:datepricetickervolume02018-01-011.323AI200012018-01-021.525AI150022018-01-031.045AI50032018-01-012.110BOC320142018-01-022.150BOC520052018-01-032.810BOC198062018-01-015.199CAT200072018-01-024.980CAT45082018-01-034.990CAT3000所以有3只股票,跨越三天。我想计算2018-01-01和2018-01-03之间每只股票的每日对数yield。

python - 按一定顺序排序(情况: pandas DataFrame Groupby)

我想更改以下代码显示的订单日期。我想要的是顺序为(周一、周二、周三、周四、周五、周六、周日)的结果-我应该说,按特定预定义的顺序按键排序吗?这是我的代码,需要一些调整:f8=df_toy_indoor2.groupby(['device_id','day'])['dwell_time'].sum()print(f8)当前结果:device_iddaydevice_112Thu436518Wed636451Fri770307Tue792066Mon826862Sat953503Sun1019298device_223Mon2534895Thu2857429Tue3303173Fri354

python - 将 PySpark 数据框列从列表转换为字符串

我有这个PySpark数据框+-----------+--------------------+|uuid|test_123|+-----------+--------------------+|1|[test,test2,test3]||2|[test4,test,test6]||3|[test6,test9,t55o]|我想将test_123列转换成这样:+-----------+--------------------+|uuid|test_123|+-----------+--------------------+|1|"test,test2,test3"||2|"test4,

python - PySpark:TypeError:条件应为字符串或列

我正在尝试过滤基于如下的RDD:spark_df=sc.createDataFrame(pandas_df)spark_df.filter(lambdar:str(r['target']).startswith('good'))spark_df.take(5)但出现以下错误:TypeErrorTraceback(mostrecentcalllast)in()1spark_df=sc.createDataFrame(pandas_df)---->2spark_df.filter(lambdar:str(r['target']).startswith('good'))3spark_df.t

python - PySpark 将列中的空值替换为其他列中的值

我想用相邻列中的值替换一列中的空值,例如,如果我有A|B0,12,null3,null4,2我希望它是:A|B0,12,23,34,2尝试过df.na.fill(df.A,"B")但是没有用,它说值应该是一个float、整数、长整型、字符串或字典有什么想法吗? 最佳答案 我们可以使用coalescefrompyspark.sql.functionsimportcoalescedf.withColumn("B",coalesce(df.B,df.A)) 关于python-PySpark将列

python - Pandas Dataframe 多索引合并

我想问一个关于在pandas中合并多索引数据框的问题,这是一个假设的场景:arrays=[['bar','bar','baz','baz','foo','foo','qux','qux'],['one','two','one','two','one','two','one','two']]tuples=list(zip(*arrays))index1=pd.MultiIndex.from_tuples(tuples,names=['first','second'])index2=pd.MultiIndex.from_tuples(tuples,names=['third','fourt