sample_dataframe

python - 填补 MultiIndex Pandas Dataframe 中的日期空白

我想修改一个pandasMultiIndexDataFrame，使每个索引组都包含指定范围之间的日期。我希望每个组用值0(或NaN)填写缺失的日期2013-06-11到2013-12-31。GroupA,GroupB,Date,Valueloc_agroup_a2013-06-11222013-07-02352013-07-09142013-07-3092013-08-0642013-09-03402013-10-0118group_b2013-07-0942013-08-0622013-09-035group_c2013-07-0912013-09-032loc_bgroup_a20

填补 MultiIndex 2013 39 code python pandas numpy dataframe multi-index

python - 填补 MultiIndex Pandas Dataframe 中的日期空白

我想修改一个pandasMultiIndexDataFrame，使每个索引组都包含指定范围之间的日期。我希望每个组用值0(或NaN)填写缺失的日期2013-06-11到2013-12-31。GroupA,GroupB,Date,Valueloc_agroup_a2013-06-11222013-07-02352013-07-09142013-07-3092013-08-0642013-09-03402013-10-0118group_b2013-07-0942013-08-0622013-09-035group_c2013-07-0912013-09-032loc_bgroup_a20

填补 MultiIndex 2013 39 code python pandas numpy dataframe multi-index

python - Pyspark Dataframe 上的 Pivot String 列

我有一个像这样的简单数据框:rdd=sc.parallelize([(0,"A",223,"201603","PORT"),(0,"A",22,"201602","PORT"),(0,"A",422,"201601","DOCK"),(1,"B",3213,"201602","DOCK"),(1,"B",3213,"201601","PORT"),(2,"C",2321,"201601","DOCK")])df_data=sqlContext.createDataFrame(rdd,["id","type","cost","date","ship"])df_data.show()+--

Dataframe Pyspark 34 code df_data python apache-spark apache-spark-sql

python - Pyspark Dataframe 上的 Pivot String 列

我有一个像这样的简单数据框:rdd=sc.parallelize([(0,"A",223,"201603","PORT"),(0,"A",22,"201602","PORT"),(0,"A",422,"201601","DOCK"),(1,"B",3213,"201602","DOCK"),(1,"B",3213,"201601","PORT"),(2,"C",2321,"201601","DOCK")])df_data=sqlContext.createDataFrame(rdd,["id","type","cost","date","ship"])df_data.show()+--

Dataframe Pyspark 34 code df_data python apache-spark apache-spark-sql

python - 如果 pandas dataframe.loc 位置不存在，则返回默认值

我发现自己经常需要在尝试引用之前检查数据框中是否存在列或行。例如，我最终添加了很多代码，例如:if'mycol'indf.columnsand'myindex'indf.index:x=df.loc[myindex,mycol]else:x=mydefault有什么方法可以更好地做到这一点？例如，在任意对象上，我可以执行x=getattr(anobject,'id',default)-pandas中有类似的东西吗？真的有什么方法可以更优雅地实现我正在做的事情吗？最佳答案有一个Series的方法:所以你可以这样做:df.mycol

dataframe python section code mycol pandas

python - 如果 pandas dataframe.loc 位置不存在，则返回默认值

我发现自己经常需要在尝试引用之前检查数据框中是否存在列或行。例如，我最终添加了很多代码，例如:if'mycol'indf.columnsand'myindex'indf.index:x=df.loc[myindex,mycol]else:x=mydefault有什么方法可以更好地做到这一点？例如，在任意对象上，我可以执行x=getattr(anobject,'id',default)-pandas中有类似的东西吗？真的有什么方法可以更优雅地实现我正在做的事情吗？最佳答案有一个Series的方法:所以你可以这样做:df.mycol

dataframe python section code mycol pandas

python - 如何分析此 Pandas DataFrame 中的所有重复条目？

我希望能够计算PandasDataFrame中数据的描述性统计数据，但我只关心重复的条目。例如，假设我有由以下人员创建的DataFrame:importpandasaspddata={'key1':[1,2,3,1,2,3,2,2],'key2':[2,2,1,2,2,4,2,2],'data':[5,6,2,6,1,6,2,8]}frame=pd.DataFrame(data,columns=['key1','key2','data'])printframekey1key2data01251226231231264221534662227228如您所见，第0、1、3、4、6和7行都是

条目 DataFrame code key 39 python pandas

python - 如何分析此 Pandas DataFrame 中的所有重复条目？

我希望能够计算PandasDataFrame中数据的描述性统计数据，但我只关心重复的条目。例如，假设我有由以下人员创建的DataFrame:importpandasaspddata={'key1':[1,2,3,1,2,3,2,2],'key2':[2,2,1,2,2,4,2,2],'data':[5,6,2,6,1,6,2,8]}frame=pd.DataFrame(data,columns=['key1','key2','data'])printframekey1key2data01251226231231264221534662227228如您所见，第0、1、3、4、6和7行都是

条目 DataFrame code key 39 python pandas

python - 用 DataFrame 中的 None/null 值替换空字符串

我有一个Spark1.5.0DataFrame在同一列中混合使用null和空字符串。我想将所有列中的所有空字符串转换为null(None，在Python中)。DataFrame可能有数百列，因此我试图避免对每一列进行硬编码操作。请参阅下面的尝试，这会导致错误。frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)##CreateatestDataFrametestDF=sqlContext.createDataFrame([Row(col1='foo',col2=1),Row(col1='',col2=2),Row(col1=N

空字符 DataFrame null col code python apache-spark apache-spark-sql pyspark

python - 用 DataFrame 中的 None/null 值替换空字符串

我有一个Spark1.5.0DataFrame在同一列中混合使用null和空字符串。我想将所有列中的所有空字符串转换为null(None，在Python中)。DataFrame可能有数百列，因此我试图避免对每一列进行硬编码操作。请参阅下面的尝试，这会导致错误。frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)##CreateatestDataFrametestDF=sqlContext.createDataFrame([Row(col1='foo',col2=1),Row(col1='',col2=2),Row(col1=N

空字符 DataFrame null col code python apache-spark apache-spark-sql pyspark