pandas_草庐IT

python - 如何对 pandas DataFrame 中的值进行二值化？

我有以下数据框:df=pd.DataFrame(['Male','Female','Female','Unknown','Male'],columns=['Gender'])我想将其转换为包含“男性”、“女性”和“未知”列的DataFrame，值0和1表示性别。GenderMaleFemaleMale10Female01....为此，我编写了一个函数并使用map调用该函数。defisValue(x,value):if(x==value):return1else:return0forvalueindf['Gender'].unique():df[str(value)]=df['Gende

DataFrame python 39 code section pandas scikit-learn

python - 无法访问数据框列

我正在从csv文件导入数据框，但无法按名称访问其中的某些列。怎么回事？更具体地说:>importpandas>jobNames=pandas.read_csv("job_names.csv")>print(jobNames)job_idjob_namenum_judgements0933985Foo1801933130Moo1752933123Goo1503933094Flue1204933088Tru120当我尝试访问第二列时，出现错误:>jobNames.job_nameAttributeError:'DataFrame'objecthasnoattribute'job_name'

python 无法 code section pre csv pandas dataframe removing-whitespace

python - 按两列分组并计算 Pandas 中每个组合的出现次数

我有以下数据框:data=pd.DataFrame({'user_id':['a1','a1','a1','a2','a2','a2','a3','a3','a3'],'product_id':['p1','p1','p2','p1','p1','p1','p2','p2','p3']})product_iduser_idp1a1p1a1p2a1p1a2p1a2p1a2p2a3p2a3p3a3在实际情况下可能还有其他一些列，但我需要做的是按数据框按product_id和user_id列分组并计算每个组合的数量并将其添加为新数据框中的新列输出应该是这样的:user_idproduct_i

python Pandas 39 product_id product dataframe data-analysis

python - 如何在没有列名或行名的情况下选择 Pandas 中的列和行？

我有一个像这样的Pandas数据框(df)CloseCloseCloseCloseCloseDate2000-01-0300:00:00NaNNaNNaNNaN-0.0339442000-01-0400:00:00NaNNaNNaNNaN0.03513662000-01-0500:00:00-0.033944NaNNaNNaN-0.01724142000-01-0600:00:000.0351366-0.033944NaNNaN-0.004385962000-01-0700:00:00-0.01724140.0351366-0.033944NaN0.0396476在R中如果我想选择第五

列名何在 code pre section python pandas

python - 用 pandas 在 excel 中给单元格着色

我需要一些帮助。所以我有这样的东西importpandasaspdpath='/Users/arronteb/Desktop/excel/ejemplo.xlsx'xlsx=pd.ExcelFile(path)df=pd.read_excel(xlsx,'Sheet1')df['is_duplicated']=df.duplicated('#CSR')df_nodup=df.loc[df['is_duplicated']==False]df_nodup.to_excel('ejemplo.xlsx',encoding='utf-8')所以基本上这个程序将ejemplo.xlsx(eje

python pandas code section 39 excel duplicates highlight

python - Pandas ，通过列值的单调增加来拆分数据框

我有一个巨大的数据框，其中包含一个名为time的日期时间类型列和另一个名为dist的浮点型列，数据框已根据时间和dist进行排序。我想根据dist的单调递增将数据帧分成几个数据帧。拆分dtdist02016081111:101.012016081111:151.422016081112:151.832016081112:320.642016081112:340.852016081114:380.2进入dtdist02016081111:101.012016081111:151.422016081112:151.8dtdist02016081112:320.612016081112:34

加来单调 20160811 dist code python pandas numpy dataframe

python - pandas 将文本特征转换为数值

我可以通过使用df.astype()方法转换为“类别”来转换pandas数据框中的所有文本特征，如下所示。但是我发现类别很难处理(例如用于绘制数据)并且更愿意创建一个新的整数列#convertallobjectstocategoriesobject_types=dataset.select_dtypes(include=['O'])forcolinobject_types:dataset['{0}_category'.format(col)]=dataset[col].astype('category')我可以使用这个hack将文本转换为整数:#convertallobjectstoi

为数 python section dataset col pandas

python - Pandas - 'Series' 对象没有属性

我需要使用lambda函数逐行计算。例如创建一些数据框importpandasaspdimportnumpyasnpdefmyfunc(x,y):returnx+ycolNames=['A','B']data=np.array([np.arange(10)]*2).Tdf=pd.DataFrame(data,index=range(0,10),columns=colNames)使用'myfunc'这确实有效df['D']=(df.apply(lambdax:myfunc(x.A,x.B),axis=1))但是第二种情况不起作用!df['D']=(df.apply(lambdax:myf

amp python code colNames section pandas

python - 如何获取 Pandas 数据框中一行的百分位数？

ExampleDataFrameValues-078138242348431589694710281229122stats.percentileofscore(temp['INCOME'].values,38,kind='mean')15.0stats.percentileofscore(temp['INCOME'].values,38,kind='strict')10.0stats.percentileofscore(temp['INCOME'].values,38,kind='weak')20.0stats.percentileofscore(temp['INCOME'].valu

python Pandas code 39 temp numpy scipy percentile

python - 列 : getting value_counts as columns in pandas 的多级索引

在一般意义上，我要解决的问题是将多级索引的一个组件更改为列。也就是说，我有一个包含多级索引的Series，我希望索引的最低级别更改为dataframe中的列。这是我试图解决的实际示例问题，这里我们可以生成一些示例数据:foo_choices=["saul","walter","jessee"]bar_choices=["alpha","beta","foxtrot","gamma","hotel","yankee"]df=DataFrame([{"foo":random.choice(foo_choices),"bar":random.choice(bar_choices)}for_i

value_counts getting code section pre python ipython pandas