草庐IT

dataframe

全部标签

python - 如何用一些列作为 json 展平 Pandas 数据框?

我有一个从数据库加载数据的数据框df。大多数列是json字符串,而有些甚至是json列表。例如:idnamecolumnAcolumnB1John{"dist":"600","time":"0:12.10"}[{"pos":"1st","value":"500"},{"pos":"2nd","value":"300"},{"pos":"3rd","value":"200"},{"pos":"total","value":"1000"}]2Mike{"dist":"600"}[{"pos":"1st","value":"500"},{"pos":"2nd","value":"300"},

python - 使用带有参数的 Pandas groupby() + apply()

我想将df.groupby()与apply()结合使用,将函数应用于每组的每一行。我通常使用以下代码,它通常可以工作(注意,这是没有groupby()):df.apply(myFunction,args=(arg1,))使用groupby()我尝试了以下操作:df.groupby('columnName').apply(myFunction,args=(arg1,))但是,我收到以下错误:TypeError:myFunction()gotanunexpectedkeywordargument'args'因此,我的问题是:如何将groupby()和apply()与需要参数的函数一起使用?

python - 使用带有参数的 Pandas groupby() + apply()

我想将df.groupby()与apply()结合使用,将函数应用于每组的每一行。我通常使用以下代码,它通常可以工作(注意,这是没有groupby()):df.apply(myFunction,args=(arg1,))使用groupby()我尝试了以下操作:df.groupby('columnName').apply(myFunction,args=(arg1,))但是,我收到以下错误:TypeError:myFunction()gotanunexpectedkeywordargument'args'因此,我的问题是:如何将groupby()和apply()与需要参数的函数一起使用?

python - 在 Python Pandas 中将列转换为行

我有以下PythonPandas数据框:fruits|numFruits---------------------0|apples|101|grapes|202|figs|15我想要:apples|grapes|figs-----------------------------------------Market1Order|10|20|15我查看了pivot()、pivot_table()、Transpose和unstack(),但它们似乎都没有给我这个。Pandas新手,感谢所有帮助。 最佳答案 您需要set_index通过T转

python - 在 Python Pandas 中将列转换为行

我有以下PythonPandas数据框:fruits|numFruits---------------------0|apples|101|grapes|202|figs|15我想要:apples|grapes|figs-----------------------------------------Market1Order|10|20|15我查看了pivot()、pivot_table()、Transpose和unstack(),但它们似乎都没有给我这个。Pandas新手,感谢所有帮助。 最佳答案 您需要set_index通过T转

python - Pyspark Dataframe 上的 Pivot String 列

我有一个像这样的简单数据框:rdd=sc.parallelize([(0,"A",223,"201603","PORT"),(0,"A",22,"201602","PORT"),(0,"A",422,"201601","DOCK"),(1,"B",3213,"201602","DOCK"),(1,"B",3213,"201601","PORT"),(2,"C",2321,"201601","DOCK")])df_data=sqlContext.createDataFrame(rdd,["id","type","cost","date","ship"])df_data.show()+--

python - Pyspark Dataframe 上的 Pivot String 列

我有一个像这样的简单数据框:rdd=sc.parallelize([(0,"A",223,"201603","PORT"),(0,"A",22,"201602","PORT"),(0,"A",422,"201601","DOCK"),(1,"B",3213,"201602","DOCK"),(1,"B",3213,"201601","PORT"),(2,"C",2321,"201601","DOCK")])df_data=sqlContext.createDataFrame(rdd,["id","type","cost","date","ship"])df_data.show()+--

python - 创建单行 python pandas 数据框

我想创建一个单行的pythonpandasDataFrame,以使用更多的pandas功能,例如转储到*.csv。我见过下面这样的代码,但我只得到了列结构,但数据是空的importpandasaspddf=pd.DataFrame()df['A']=1df['B']=1.23df['C']="Hello"df.columns=[['A','B','C']]printdfEmptyDataFrameColumns:[A,B,C]Index:[]虽然我知道还有其他方法可以做到这一点(例如从字典中),但我想了解为什么这段代码对我不起作用!?这是版本问题吗?(使用Pandas==0.19.2)

python - 创建单行 python pandas 数据框

我想创建一个单行的pythonpandasDataFrame,以使用更多的pandas功能,例如转储到*.csv。我见过下面这样的代码,但我只得到了列结构,但数据是空的importpandasaspddf=pd.DataFrame()df['A']=1df['B']=1.23df['C']="Hello"df.columns=[['A','B','C']]printdfEmptyDataFrameColumns:[A,B,C]Index:[]虽然我知道还有其他方法可以做到这一点(例如从字典中),但我想了解为什么这段代码对我不起作用!?这是版本问题吗?(使用Pandas==0.19.2)

python - 如果 pandas dataframe.loc 位置不存在,则返回默认值

我发现自己经常需要在尝试引用之前检查数据框中是否存在列或行。例如,我最终添加了很多代码,例如:if'mycol'indf.columnsand'myindex'indf.index:x=df.loc[myindex,mycol]else:x=mydefault有什么方法可以更好地做到这一点?例如,在任意对象上,我可以执行x=getattr(anobject,'id',default)-pandas中有类似的东西吗?真的有什么方法可以更优雅地实现我正在做的事情吗? 最佳答案 有一个Series的方法:所以你可以这样做:df.mycol