pyhton_Pandas

python - 复制训练示例以处理 pandas 数据框中的类不平衡

我在pandas中有一个包含训练示例的DataFrame，例如:feature1feature2class00.5488140.791725110.7151890.528895020.6027630.568045030.5448830.925597040.4236550.071036050.6458940.087129060.4375870.020218070.8917730.832620180.9636630.778157090.3834420.8700120我使用生成的:importpandasaspdimportnumpyasnpnp.random.seed(0)number_o

不平训练 code section python pandas machine-learning oversampling

python - Pandas ，对于一列中的每个唯一值，在另一列中获取唯一值

我有一个数据框，其中每一行都包含与单个Reddit评论(例如作者、subreddit、评论文本)相关的各种元数据。我想做以下事情:对于每个作者，我想获取他们在其中发表评论的所有subreddits的列表，并将此数据转换为pandas数据框，其中每一行对应一个作者，以及所有的列表他们发表评论的独特子版block。我目前正在尝试以下的一些组合，但无法理解:尝试1:group=df['subreddit'].groupby(df['author']).unique()list(group)尝试2:fromcollectionsimportdefaultdictsubreddit_dict=d

python Pandas subreddit 39 code

python - Pandas :如何获得 Pandas 系列中最频繁的项目？

如何获取pandas系列中出现次数最多的项目？考虑系列ss=pd.Series("153335218102333".split()).astype(int)返回值应该是3 最佳答案你可以只使用pd.Series.mode并提取第一个值:res=s.mode().iloc[0]这不一定是低效的。与往常一样，使用您的数据进行测试，看看什么适合。importnumpyasnp,pandasaspdfromscipy.stats.mstatsimportmodefromcollectionsimportCounternp.random.s

Pandas 频繁 code section timeit python python-3.x series

python - 用两列的 groupby 的第一行构建新列 - Pandas

我正在尝试构建一个新列，如果它是列“type”的元素第一次具有列“xx”的特定值，则该列的值为1，并在中给出0的值任何其他情况。我正在使用的原始数据框(df)是:idx=[np.array(['Jan-18','Jan-18','Feb-18','Mar-18','Mar-18','Mar-18','Apr-18','Apr-18','May-18','Jun-18','Jun-18','Jun-18','Jul-18','Aug-18','Aug-18','Sep-18','Sep-18','Oct-18','Oct-18','Oct-18','Nov-18','Dec-18','D

groupby python 39 2018 1000 pandas dataframe

python - 与 Pandas 总结几个月

我知道有一个简单的实现可以做到这一点，但我不记得语法了。有一个简单的pandas时间序列，我想按月汇总数据。具体来说，我想添加数月和数年的数据以获得一些总结。可以用切片来编写它，但我记得看到过自动执行它的语法。importpandasaspddf=Series(randn(100),index=pd.date_range('2012-01-01',periods=100))以年为单位并以月份为子单位的多索引系列将获得一等奖。部分答案:ds.resample('M',how=sum)#forcalendarmonthlyds.resample('A',how=sum)#forcalend

python Pandas section code pre time-series

python - 如何将 Pandas 组保存到单独的文件

我使用以下语句创建了个人数据组:df=pd.read_csv(file_path)grouped=df.groupby(df.some_parameter)然后我想做什么(在伪代码中是):forname,groupingrouped:'SomeText'+name=groupwritetocsv最终结果是原始数据集的每个block都有一个单独的.csv文件。最佳答案你快到了forname,groupingrouped:group.to_csv(path_to_disk) 关于pyth

python Pandas section code pre

python - 根据 Pandas 中的字符串列表过滤掉行

我有一个大型时间序列数据框(称为df)，前5条记录如下所示:dfstnyears_of_datatotal_minutesavg_dailyTOA_dailyK_dailydate1900-01-14AlberniElementary4574534.100114.6000.2981900-01-14AlberniWeather6712929.500114.6000.2571900-01-14Arbutus81117430.500114.6000.2661900-01-14Arrowview71008027.600114.6000.2411900-01-14Bayside7974533.

python Pandas strong section 1900 filter

python - 将常量列添加到 Pandas 数据框的更好方法

目前，当我必须向现有数据框添加常量列时，我会执行以下操作。对我来说，它似乎并不那么优雅(我乘以数据帧长度的部分)。想知道是否有更好的方法来做到这一点。importpandasaspdtestdf=pd.DataFrame({'categories':['bats','balls','paddles'],'skus':[50,5000,32],'sales':[500,700,90]})testdf['avg_sales_per_sku']=[testdf.sales.sum()/testdf.skus.sum()]*len(testdf) 最佳答案

python Pandas section testdf 39

python - pandas.Series() 使用 DataFrame 列创建返回 NaN 数据条目

我正在尝试使用简化后的代码将数据帧转换为系列:dates=['2016-1-{}'.format(i)foriinrange(1,21)]values=[iforiinrange(20)]data={'Date':dates,'Value':values}df=pd.DataFrame(data)df['Date']=pd.to_datetime(df['Date'])ts=pd.Series(df['Value'],index=df['Date'])print(ts)然而，打印输出看起来像这样:Date2016-01-01NaN2016-01-02NaN2016-01-03NaN20

条目 DataFrame 2016 code 01 python python-3.x pandas time-series

python - 使用 Pandas 重命名数据框列中的元素

使用Pandas:df=pd.DataFrame({'n':['d','a','b','c','c','a','d','b'],'v':[1,2,1,2,2,1,1,1]})如何重命名df.n中的元素，使a更改为x、b到y，c到w和d到z，导致:nv0z11x22y13w2... 最佳答案您可以将替换值的字典传递到系列replace中方法:In[11]:df['n'].replace({'a':'x','b':'y','c':'w','d':'z'})Out[11]:0z1x2y3w4w5x6z7yName:n,dtype:obj

命名 python 39 code section pandas dataframe rename

58 59 606162 63 64