dataframe_草庐IT

python - 如何用一些列作为 json 展平 Pandas 数据框？

我有一个从数据库加载数据的数据框df。大多数列是json字符串，而有些甚至是json列表。例如:idnamecolumnAcolumnB1John{"dist":"600","time":"0:12.10"}[{"pos":"1st","value":"500"},{"pos":"2nd","value":"300"},{"pos":"3rd","value":"200"},{"pos":"total","value":"1000"}]2Mike{"dist":"600"}[{"pos":"1st","value":"500"},{"pos":"2nd","value":"300"},

展平何用 34 code json python pandas dataframe flatten

python - 使用带有参数的 Pandas groupby() + apply()

我想将df.groupby()与apply()结合使用，将函数应用于每组的每一行。我通常使用以下代码，它通常可以工作(注意，这是没有groupby()):df.apply(myFunction,args=(arg1,))使用groupby()我尝试了以下操作:df.groupby('columnName').apply(myFunction,args=(arg1,))但是，我收到以下错误:TypeError:myFunction()gotanunexpectedkeywordargument'args'因此，我的问题是:如何将groupby()和apply()与需要参数的函数一起使用？

groupby python code apply pandas dataframe pandas-groupby

python - 使用带有参数的 Pandas groupby() + apply()

我想将df.groupby()与apply()结合使用，将函数应用于每组的每一行。我通常使用以下代码，它通常可以工作(注意，这是没有groupby()):df.apply(myFunction,args=(arg1,))使用groupby()我尝试了以下操作:df.groupby('columnName').apply(myFunction,args=(arg1,))但是，我收到以下错误:TypeError:myFunction()gotanunexpectedkeywordargument'args'因此，我的问题是:如何将groupby()和apply()与需要参数的函数一起使用？

groupby python code apply pandas dataframe pandas-groupby

python - 在 Python Pandas 中将列转换为行

python code section numFruits pandas dataframe transpose

python - 在 Python Pandas 中将列转换为行

python code section numFruits pandas dataframe transpose

python - Pyspark Dataframe 上的 Pivot String 列

我有一个像这样的简单数据框:rdd=sc.parallelize([(0,"A",223,"201603","PORT"),(0,"A",22,"201602","PORT"),(0,"A",422,"201601","DOCK"),(1,"B",3213,"201602","DOCK"),(1,"B",3213,"201601","PORT"),(2,"C",2321,"201601","DOCK")])df_data=sqlContext.createDataFrame(rdd,["id","type","cost","date","ship"])df_data.show()+--

Dataframe Pyspark 34 code df_data python apache-spark apache-spark-sql

python - Pyspark Dataframe 上的 Pivot String 列

我有一个像这样的简单数据框:rdd=sc.parallelize([(0,"A",223,"201603","PORT"),(0,"A",22,"201602","PORT"),(0,"A",422,"201601","DOCK"),(1,"B",3213,"201602","DOCK"),(1,"B",3213,"201601","PORT"),(2,"C",2321,"201601","DOCK")])df_data=sqlContext.createDataFrame(rdd,["id","type","cost","date","ship"])df_data.show()+--

Dataframe Pyspark 34 code df_data python apache-spark apache-spark-sql

python - 创建单行 python pandas 数据框

我想创建一个单行的pythonpandasDataFrame，以使用更多的pandas功能，例如转储到*.csv。我见过下面这样的代码，但我只得到了列结构，但数据是空的importpandasaspddf=pd.DataFrame()df['A']=1df['B']=1.23df['C']="Hello"df.columns=[['A','B','C']]printdfEmptyDataFrameColumns:[A,B,C]Index:[]虽然我知道还有其他方法可以做到这一点(例如从字典中)，但我想了解为什么这段代码对我不起作用!？这是版本问题吗？(使用Pandas==0.19.2)

python pandas section 39 DataFrame

python - 创建单行 python pandas 数据框

我想创建一个单行的pythonpandasDataFrame，以使用更多的pandas功能，例如转储到*.csv。我见过下面这样的代码，但我只得到了列结构，但数据是空的importpandasaspddf=pd.DataFrame()df['A']=1df['B']=1.23df['C']="Hello"df.columns=[['A','B','C']]printdfEmptyDataFrameColumns:[A,B,C]Index:[]虽然我知道还有其他方法可以做到这一点(例如从字典中)，但我想了解为什么这段代码对我不起作用!？这是版本问题吗？(使用Pandas==0.19.2)

python pandas section 39 DataFrame

python - 如果 pandas dataframe.loc 位置不存在，则返回默认值

我发现自己经常需要在尝试引用之前检查数据框中是否存在列或行。例如，我最终添加了很多代码，例如:if'mycol'indf.columnsand'myindex'indf.index:x=df.loc[myindex,mycol]else:x=mydefault有什么方法可以更好地做到这一点？例如，在任意对象上，我可以执行x=getattr(anobject,'id',default)-pandas中有类似的东西吗？真的有什么方法可以更优雅地实现我正在做的事情吗？最佳答案有一个Series的方法:所以你可以这样做:df.mycol

dataframe python section code mycol pandas