sample_dataframe

python - 使用分层列创建 DataFrame

创建具有分层列的DataFrame的最简单方法是什么？我目前正在从名称字典创建一个DataFrame->Series使用:df=pd.DataFrame(data=serieses)我想使用相同的列名称，但在列上添加额外的层次结构。目前，我希望附加级别的列具有相同的值，比方说“估计”。我正在尝试以下方法，但似乎不起作用:pd.DataFrame(data=serieses,columns=pd.MultiIndex.from_tuples([(x,"Estimates")forxinserieses.keys()]))我得到的只是一个包含所有NaN的DataFrame。比如我要找的大概

python - pandas.DataFrame corrwith() 方法

我最近开始使用pandas。谁能解释一下函数.corrwith()与Series和DataFrame的行为差异？假设我有一个DataFrame:frame=pd.DataFrame(data={'a':[1,2,3],'b':[-1,-2,-3],'c':[10,-10,10]})我想计算特征“a”与所有其他特征之间的相关性。我可以通过以下方式做到这一点:frame.drop(labels='a',axis=1).corrwith(frame['a'])结果将是:b-1.0c0.0但是非常相似的代码:frame.drop(labels='a',axis=1).corrwith(fram

python - 将 Pandas DataFrame 保存到 Django 模型

我有存储在pandasDataFrame中的股票价格数据，如下所示(实际上它在面板中，但我将其转换为DataFrame)datetickerclosetsr02013-03-28abc22.811.00043912013-03-28def94.211.00694722013-03-28ghi95.841.01418032013-03-28jkl31.801.00000042013-03-28mno32.101.003125...manymorerows我想将它保存在Django模型中，它看起来像这样(与列名匹配):classHistoricalPrices(models.Model):

python - 如何将压缩的(gz)CSV 文件读入 dask Dataframe？

有没有办法将通过gz压缩的.csv文件读取到dask数据帧中？我直接用试过了importdask.dataframeasdddf=dd.read_csv("Data.gz")但得到一个unicode错误(可能是因为它正在解释压缩字节)有一个"compression"参数但是compression="gz"将不起作用并且到目前为止我找不到任何文档。使用pandas我可以直接读取文件，除了结果会破坏我的内存之外没有任何问题;-)但是如果我限制行数它工作正常。importpandas.Dataframeaspddf=pd.read_csv("Data.gz",ncols=100)

python - 将 pandas.DataFrame 转换为 Python 中的字典列表

我有一个字典，它是从数据框转换而来的，如下所示:a=d.to_json(orient='index')字典:{"0":{"yr":2017,"PKID":"58306,57011","Subject":"ABC","ID":"T001"},"1":{"yr":2018,"PKID":"1234,54321","Subject":"XYZ","ID":"T002"}}我需要的是它在一个列表中，所以本质上是一个字典列表。所以我只添加了一个[]，因为这是在其余代码中使用的格式。input_dict=[a]输入字典:['{"0":{"yr":2017,"PKID":"58306,57011",

python - 根据另一个列值更改 pandas DataFrame 列值

我有一个包含两列的数据框，每一列代表一个有机体。它们被称为ORG1和ORG2我想将ORG2的值移动到ORG1中以获得相应的索引值。因此，如果ORG1是“A”而ORG2是“B”，我希望ORG1从ORG2中获取值“B”。我已经开始确定我要移动的ORG2生物体的索引，如下所示:defmove_org2(x):org2_matches=Series(x.ORG2.str.count("ESBL"))returnx.ix[org2_matches==1]org2_DF=move_org2(DF)org2_DF.ORG2.index使用此方法将ORG1值更改为相应ORG2索引处的值的最佳方法是什么

python - Pandas 数据帧 : SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame

这个问题在这里已经有了答案:HowtodealwithSettingWithCopyWarninginPandas(20个答案)关闭3年前。我知道有很多关于此警告的帖子，但我找不到解决我的情况的方法。这是我的代码:df.loc[:,'my_col']=df.loc[:,'my_col'].astype(int)#df.loc[:,'my_col']=df.loc[:,'my_col'].astype(int).copy()#df.loc[:,'my_col']=df['my_col'].astype(int)它产生警告:SettingWithCopyWarning:Avalueistr

python - 过滤值低于 0 的 pandas dataframe 行

我有一个像这样的Pandas数据框df=pd.DataFrame(data=[[21,1],[32,-4],[-4,14],[3,17],[-7,NaN]],columns=['a','b'])df我希望能够删除列列表中所有具有负值的行并保留具有NaN的行。在我的示例中只有2列，但我的数据集中有更多列，所以我无法一一列出。最佳答案如果你想将它应用到所有列，使用dropna()执行df[df>0]:>>>df[df>0].dropna()ab02113317如果您知道要将其应用到哪些列，则仅对那些具有df[df[cols]>0]的

python - LabelEncoder 指定 DataFrame 中的类

我正在将LabelEncoder应用于pandasDataFrame，dfFeat1Feat2Feat3Feat4Feat5AAAAEBBCCECDCCEDACDE我正在将标签编码器应用于这样的数据帧-fromsklearnimportpreprocessingle=preprocessing.LabelEncoder()intIndexed=df.apply(le.fit_transform)标签是这样映射的A=0B=1C=2D=3E=0我猜测E没有被赋予4的值，因为它没有出现在除Feat5.我希望E被赋予4的值-但不知道如何在DataFrame中执行此操作。

python - Pandas DataFrame.add() -- 忽略缺失的列

我有以下两个DataFrame:>>>historyabovebelowasncountry12345US54MX6354321MX45>>>currentabovebelowasncountry12345MX1054321MX01US10我在historyDataFrame中保持“高于”和“低于”值的运行计数，如下所示:>>>history=history.add(current,fill_value=0)>>>historyabovebelowasncountry12345MX7.03.0US5.04.054321MX4.06.0US1.00.0只要currentDataFrame