Pandas-Datareader

python - Pandas - 'Series' 对象没有属性

我需要使用lambda函数逐行计算。例如创建一些数据框importpandasaspdimportnumpyasnpdefmyfunc(x,y):returnx+ycolNames=['A','B']data=np.array([np.arange(10)]*2).Tdf=pd.DataFrame(data,index=range(0,10),columns=colNames)使用'myfunc'这确实有效df['D']=(df.apply(lambdax:myfunc(x.A,x.B),axis=1))但是第二种情况不起作用!df['D']=(df.apply(lambdax:myf

python - 如何获取 Pandas 数据框中一行的百分位数？

ExampleDataFrameValues-078138242348431589694710281229122stats.percentileofscore(temp['INCOME'].values,38,kind='mean')15.0stats.percentileofscore(temp['INCOME'].values,38,kind='strict')10.0stats.percentileofscore(temp['INCOME'].values,38,kind='weak')20.0stats.percentileofscore(temp['INCOME'].valu

python Pandas code 39 temp numpy scipy percentile

python - 列 : getting value_counts as columns in pandas 的多级索引

在一般意义上，我要解决的问题是将多级索引的一个组件更改为列。也就是说，我有一个包含多级索引的Series，我希望索引的最低级别更改为dataframe中的列。这是我试图解决的实际示例问题，这里我们可以生成一些示例数据:foo_choices=["saul","walter","jessee"]bar_choices=["alpha","beta","foxtrot","gamma","hotel","yankee"]df=DataFrame([{"foo":random.choice(foo_choices),"bar":random.choice(bar_choices)}for_i

value_counts getting code section pre python ipython pandas

python - pandas - 数据框中出现的唯一行数

如何计算DataFrame中每个唯一行的出现次数？data={'x1':['A','B','A','A','B','A','A','A'],'x2':[1,3,2,2,3,1,2,3]}df=pd.DataFrame(data)dfx1x20A11B32A23A24B35A16A27A3我想得到x1x2count0A121A232A313B32 最佳答案 IIUC您可以将参数as_index=False作为参数传递给groupby:In[100]:df.groupby(['x1','x2'],as_index=False).coun

python pandas code 39 section

python - 从 pandas 转换为 numpy 时如何保留列名

根据tothispost，我应该能够访问ndarray中列的名称作为a.dtype.names但是，如果我使用df.as_matrix()或df.values将pandasDataFrame转换为ndarray，则dtype.names字段为None。此外，如果我尝试将列名分配给ndarrayX=pd.DataFrame(dict(age=[40.,50.,60.],sys_blood_pressure=[140.,150.,160.]))printXprinttype(X.as_matrix())#printtype(X.as_matrix()[0])#m=X.as_matrix()

列名 python code 39 pre pandas numpy

python - Pandas 加入具有不同名称的列

这个问题在这里已经有了答案:PandasMerging101(8个答案)关闭3年前。我有两个不同的数据框，我想对其执行一些sql操作。不幸的是，就像我正在处理的数据一样，拼写通常不同。请参阅下面的示例，其中我认为语法看起来像用户ID属于df1，用户名属于df2。有人帮帮我吗？#notworking-Iassumesomesyntaxissue?pd.merge(df1,df2,on=[['userid'=='username','column1']],how='left')

python Pandas section notice 39 sql merge

python - pandas groupby 计数、总和和平均值

我在Pandas中有以下DF:+---------+--------+--------------------+|keyword|weight|otherkeywords|+---------+--------+--------------------+|dog|0.12|[cat,horse,pig]||cat|0.5|[dog,pig,camel]||horse|0.07|[dog,camel,cat]||dog|0.1|[cat,horse]||dog|0.2|[cat,horse,pig]||horse|0.3|[camel]|+---------+--------+-----

groupby python horse 39 cat python-3.x pandas

python - 具有每列模式的多列 Pandas Fillna

处理人口普查数据时，我想用这两列各自的模式替换两列(“workclass”和“native-country”)中的NaN。我可以轻松获得这些模式:mode=df.filter(["workclass","native-country"]).mode()它返回一个数据框:workclassnative-country0PrivateUnited-States但是，df.filter(["workclass","native-country"]).fillna(mode)不会用任何东西替换每列中的NaN，更不用说与该列对应的模式了。有没有一种流畅的方法可以做到这一点？

多列 python code native-country United-States pandas numpy data-science

python - 在 pandas 中使用 groupby 进行 bool 运算

我想以特定方式使用pandas.groupby。给定一个包含两个bool列(分别称为col1和col2)和一个id列的DataFrame，我想按以下方式添加一列:对于每个条目，如果(col2为True)并且(col1对于任何具有相同ID的条目为True)则分配True。否则为假。我做了一个简单的例子:df=pd.DataFrame([[0,1,1,2,2,3,3],[False,False,False,False,False,False,True],[False,True,False,False,True,True,False]]).transpose()df.columns=['id

groupby python False code True python-3.x pandas dataframe pandas-groupby

python - 寻找整个 Pandas 数据框的中位数

我试图找到整个数据帧的中值流。第一部分是仅选择数据框中的某些项目。这有两个问题，它包括不在“状态”中的数据框部分。此外，中位数不是单个值，它基于行。我将如何获得数据框中所有数据的总体中位数？最佳答案两种选择:1)Pandas选项:df.stack().median()2)一个numpy选项:np.median(df.values) 关于python-寻找整个Pandas数据框的中位数，我们在StackOverflow上找到一个类似的问题： https://

python Pandas section code stackoverflow