草庐IT

pyspark-dataframes

全部标签

python - 填补 MultiIndex Pandas Dataframe 中的日期空白

我想修改一个pandasMultiIndexDataFrame,使每个索引组都包含指定范围之间的日期。我希望每个组用值0(或NaN)填写缺失的日期2013-06-11到2013-12-31。GroupA,GroupB,Date,Valueloc_agroup_a2013-06-11222013-07-02352013-07-09142013-07-3092013-08-0642013-09-03402013-10-0118group_b2013-07-0942013-08-0622013-09-035group_c2013-07-0912013-09-032loc_bgroup_a20

python - 填补 MultiIndex Pandas Dataframe 中的日期空白

我想修改一个pandasMultiIndexDataFrame,使每个索引组都包含指定范围之间的日期。我希望每个组用值0(或NaN)填写缺失的日期2013-06-11到2013-12-31。GroupA,GroupB,Date,Valueloc_agroup_a2013-06-11222013-07-02352013-07-09142013-07-3092013-08-0642013-09-03402013-10-0118group_b2013-07-0942013-08-0622013-09-035group_c2013-07-0912013-09-032loc_bgroup_a20

python - Pyspark Dataframe 上的 Pivot String 列

我有一个像这样的简单数据框:rdd=sc.parallelize([(0,"A",223,"201603","PORT"),(0,"A",22,"201602","PORT"),(0,"A",422,"201601","DOCK"),(1,"B",3213,"201602","DOCK"),(1,"B",3213,"201601","PORT"),(2,"C",2321,"201601","DOCK")])df_data=sqlContext.createDataFrame(rdd,["id","type","cost","date","ship"])df_data.show()+--

python - Pyspark Dataframe 上的 Pivot String 列

我有一个像这样的简单数据框:rdd=sc.parallelize([(0,"A",223,"201603","PORT"),(0,"A",22,"201602","PORT"),(0,"A",422,"201601","DOCK"),(1,"B",3213,"201602","DOCK"),(1,"B",3213,"201601","PORT"),(2,"C",2321,"201601","DOCK")])df_data=sqlContext.createDataFrame(rdd,["id","type","cost","date","ship"])df_data.show()+--

Python/pyspark 数据框重新排列列

我在python/pyspark中有一个数据框,其中包含idtimecityzip等列。.....现在我向这个数据框添加了一个新列name。现在我必须以name列在id之后的方式排列列我已经完成了如下操作change_cols=['id','name']cols=([colforcolinchange_colsifcolindf]+[colforcolindfifcolnotinchange_cols])df=df[cols]我收到了这个错误pyspark.sql.utils.AnalysisException:u"Reference'id'isambiguous,couldbe:id

Python/pyspark 数据框重新排列列

我在python/pyspark中有一个数据框,其中包含idtimecityzip等列。.....现在我向这个数据框添加了一个新列name。现在我必须以name列在id之后的方式排列列我已经完成了如下操作change_cols=['id','name']cols=([colforcolinchange_colsifcolindf]+[colforcolindfifcolnotinchange_cols])df=df[cols]我收到了这个错误pyspark.sql.utils.AnalysisException:u"Reference'id'isambiguous,couldbe:id

python - 如果 pandas dataframe.loc 位置不存在,则返回默认值

我发现自己经常需要在尝试引用之前检查数据框中是否存在列或行。例如,我最终添加了很多代码,例如:if'mycol'indf.columnsand'myindex'indf.index:x=df.loc[myindex,mycol]else:x=mydefault有什么方法可以更好地做到这一点?例如,在任意对象上,我可以执行x=getattr(anobject,'id',default)-pandas中有类似的东西吗?真的有什么方法可以更优雅地实现我正在做的事情吗? 最佳答案 有一个Series的方法:所以你可以这样做:df.mycol

python - 如果 pandas dataframe.loc 位置不存在,则返回默认值

我发现自己经常需要在尝试引用之前检查数据框中是否存在列或行。例如,我最终添加了很多代码,例如:if'mycol'indf.columnsand'myindex'indf.index:x=df.loc[myindex,mycol]else:x=mydefault有什么方法可以更好地做到这一点?例如,在任意对象上,我可以执行x=getattr(anobject,'id',default)-pandas中有类似的东西吗?真的有什么方法可以更优雅地实现我正在做的事情吗? 最佳答案 有一个Series的方法:所以你可以这样做:df.mycol

python - 如何分析此 Pandas DataFrame 中的所有重复条目?

我希望能够计算PandasDataFrame中数据的描述性统计数据,但我只关心重复的条目。例如,假设我有由以下人员创建的DataFrame:importpandasaspddata={'key1':[1,2,3,1,2,3,2,2],'key2':[2,2,1,2,2,4,2,2],'data':[5,6,2,6,1,6,2,8]}frame=pd.DataFrame(data,columns=['key1','key2','data'])printframekey1key2data01251226231231264221534662227228如您所见,第0、1、3、4、6和7行都是

python - 如何分析此 Pandas DataFrame 中的所有重复条目?

我希望能够计算PandasDataFrame中数据的描述性统计数据,但我只关心重复的条目。例如,假设我有由以下人员创建的DataFrame:importpandasaspddata={'key1':[1,2,3,1,2,3,2,2],'key2':[2,2,1,2,2,4,2,2],'data':[5,6,2,6,1,6,2,8]}frame=pd.DataFrame(data,columns=['key1','key2','data'])printframekey1key2data01251226231231264221534662227228如您所见,第0、1、3、4、6和7行都是