草庐IT

dataframe

全部标签

python - 根据 Pandas 中的另一列提取列值

我有点卡在以另一个变量为条件提取一个变量的值。例如以下数据框:ABp11p12p33p24B=3时如何获取A的值?每次我提取A的值时,我都会得到一个对象,而不是字符串。 最佳答案 您可以使用loc获得满足您条件的系列,然后iloc获取第一个元素:In[2]:dfOut[2]:AB0p111p122p333p24In[3]:df.loc[df['B']==3,'A']Out[3]:2p3Name:A,dtype:objectIn[4]:df.loc[df['B']==3,'A'].iloc[0]Out[4]:'p3'

python - 根据 Pandas 中的另一列提取列值

我有点卡在以另一个变量为条件提取一个变量的值。例如以下数据框:ABp11p12p33p24B=3时如何获取A的值?每次我提取A的值时,我都会得到一个对象,而不是字符串。 最佳答案 您可以使用loc获得满足您条件的系列,然后iloc获取第一个元素:In[2]:dfOut[2]:AB0p111p122p333p24In[3]:df.loc[df['B']==3,'A']Out[3]:2p3Name:A,dtype:objectIn[4]:df.loc[df['B']==3,'A'].iloc[0]Out[4]:'p3'

python - 使用 None 值过滤 Pyspark 数据框列

我正在尝试过滤具有None作为行值的PySpark数据帧:df.select('dt_mvmt').distinct().collect()[Row(dt_mvmt=u'2016-03-27'),Row(dt_mvmt=u'2016-03-28'),Row(dt_mvmt=u'2016-03-29'),Row(dt_mvmt=None),Row(dt_mvmt=u'2016-03-30'),Row(dt_mvmt=u'2016-03-31')]我可以用字符串值正确过滤:df[df.dt_mvmt=='2016-03-31']#someresultshere但这失败了:df[df.dt_

python - 使用 None 值过滤 Pyspark 数据框列

我正在尝试过滤具有None作为行值的PySpark数据帧:df.select('dt_mvmt').distinct().collect()[Row(dt_mvmt=u'2016-03-27'),Row(dt_mvmt=u'2016-03-28'),Row(dt_mvmt=u'2016-03-29'),Row(dt_mvmt=None),Row(dt_mvmt=u'2016-03-30'),Row(dt_mvmt=u'2016-03-31')]我可以用字符串值正确过滤:df[df.dt_mvmt=='2016-03-31']#someresultshere但这失败了:df[df.dt_

python - 将 Django QuerySet 转换为 pandas DataFrame

我打算将DjangoQuerySet转换为pandasDataFrame如下:qs=SomeModel.objects.select_related().filter(date__year=2012)q=qs.values('date','OtherField')df=pd.DataFrame.from_records(q)有效,但有没有更有效的方法? 最佳答案 importpandasaspdimportdatetimefrommyapp.modelsimportBlogPostdf=pd.DataFrame(list(BlogP

python - 将 Django QuerySet 转换为 pandas DataFrame

我打算将DjangoQuerySet转换为pandasDataFrame如下:qs=SomeModel.objects.select_related().filter(date__year=2012)q=qs.values('date','OtherField')df=pd.DataFrame.from_records(q)有效,但有没有更有效的方法? 最佳答案 importpandasaspdimportdatetimefrommyapp.modelsimportBlogPostdf=pd.DataFrame(list(BlogP

python - 从 (row,col,values) 的元组列表构造 pandas DataFrame

我有一个像这样的元组列表data=[('r1','c1',avg11,stdev11),('r1','c2',avg12,stdev12),('r2','c1',avg21,stdev21),('r2','c2',avg22,stdev22)]我想将它们放入一个pandasDataFrame中,其中行由第一列命名,列由第二列命名。处理行名的方法似乎类似于pandas.DataFrame([x[1:]forxindata],index=[x[0]forxindata])但是如何处理列以获得2x2矩阵(前一组的输出是3x4)?有没有更智能的方法来处理行标签,而不是明确地忽略它们?编辑看来我

python - 从 (row,col,values) 的元组列表构造 pandas DataFrame

我有一个像这样的元组列表data=[('r1','c1',avg11,stdev11),('r1','c2',avg12,stdev12),('r2','c1',avg21,stdev21),('r2','c2',avg22,stdev22)]我想将它们放入一个pandasDataFrame中,其中行由第一列命名,列由第二列命名。处理行名的方法似乎类似于pandas.DataFrame([x[1:]forxindata],index=[x[0]forxindata])但是如何处理列以获得2x2矩阵(前一组的输出是3x4)?有没有更智能的方法来处理行标签,而不是明确地忽略它们?编辑看来我

python - 如何使 Pandas 数据框列标题全部小写?

我想让我的pandas数据框中的所有列标题都小写示例如果我有:data=countrycountryisocodeyearXRATtcgdp0CanadaCAN20011.54876924909.442071CanadaCAN20021.56932957299.915862CanadaCAN20031.401051016902.00180....我想通过执行以下操作将XRAT更改为xrat:data.headers.lowercase()所以我得到:countrycountryisocodeyearxrattcgdp0CanadaCAN20011.54876924909.442071C

python - 如何使 Pandas 数据框列标题全部小写?

我想让我的pandas数据框中的所有列标题都小写示例如果我有:data=countrycountryisocodeyearXRATtcgdp0CanadaCAN20011.54876924909.442071CanadaCAN20021.56932957299.915862CanadaCAN20031.401051016902.00180....我想通过执行以下操作将XRAT更改为xrat:data.headers.lowercase()所以我得到:countrycountryisocodeyearxrattcgdp0CanadaCAN20011.54876924909.442071C