草庐IT

panda_link

全部标签

python - 如何从 pandas 数据框创建词袋

这是我的数据框CATEGORYBRAND0NoodleAnakMas1NoodleAnakMas2NoodleIndomie3NoodleIndomie4NoodleIndomie23NoodleIndomie24NoodleMiTelorCap325NoodleMiTelorCap326NoodlePopMie27NoodlePopMie...我已经确定了df类型是string,我的代码是df=data[['CATEGORY','BRAND']].astype(str)importcollections,retexts=dfbagsofwords=[collections.Count

python - Pandas 数据透视表手动对列进行排序

这个问题在这里已经有了答案:HowtochangetheorderofDataFramecolumns?(41个回答)SelectingmultiplecolumnsinaPandasdataframe(22个答案)Sortingcolumnsinpandasdataframebasedoncolumnname[duplicate](11个答案)关闭4年前。对于给定的数据框:UUTtestatestbtestctestdDateTime2017-11-2118:47:291.01.01.03.02017-11-2118:47:301.02.01.04.02017-11-2118:47:

python - Pandas read_csv 在更改列数的情况下添加标题名称

我有很多csv文件,我想用Pandas(pd.read_csv)阅读,但是,在某些文件中,中间添加了一列没有标题,如下例所示:Apples,Pears1,23,45,6,7如果使用pd.read_csv(example_file),则会抛出以下错误“ParserError:错误标记数据。C错误:第4行中预期有2个字段,看到3”我想避免跳过该行,而只是添加一个虚拟header名称,如Unknown1,并得到以下结果:Apples,Pears,Unknown11,2,np.nan3,4,np.nan5,6,7 最佳答案 pandas需要

python - 在 Pandas 中读取带有逗号和字符的 CSV 文件时出现问题

我正在尝试使用pandas读取一个csv文件,该文件有一个名为Tags的列,该列由用户提供的标签组成,并具有诸如-、""、''、1950年代、16世纪之类的标签。由于这些是用户提供的,因此也有许多错误输入的特殊字符。问题是我无法使用pandasread_csv打开csv文件。它显示错误:Cparser,错误标记数据。有人可以帮我将csv文件读入pandas吗? 最佳答案 好的。从我们无法读取的格式错误的CSV文件开始:>>>!catunquoted.csv1950's,xyz.nl/user_003,bad,12317th,red,

python - 使用 Python 和 Pandas 实现一个经典的鞅

我想在投注系统中使用Python和Pandas实现经典的鞅。假设这个DataFrame是这样定义的df=pd.DataFrame(np.random.randint(0,2,100)*2-1,columns=['TossResults'])所以它包含了throw结果(-1=输1=赢)我想使用经典mar更改本金(我每次下注的金额)。初始股份为1。如果我输掉的赌注将是之前赌注的2倍(乘数=2)。如果我赢了stake将是stake_initial我做了一个函数defstake_martingale_classical(stake_previous,result_previous,multip

python - Pandas ,列值大于x的groupby

我有一张这样的tabletimestampavg_hrhr_qualityavg_rrrr_qualityactivitysleep_summary_id142240466866229001378142240467064223002078142240467264216001178142240467466198040978142240467665184030378142240467864173010177814224046806619902011878我正在尝试按timestamp、sleepid和rr_quality对数据进行分组,其中rr_quality是>0我已经尝试了以下方法,但

python - Pandas groupby 类别,评级,从每个类别中获得最高值(value)?

关于SO的第一个问题,对pandas来说非常新,而且在术语上仍然有点不稳定:我试图找出数据帧上正确的语法/操作顺序,以便能够按B列分组,找到最大值(或最小)C列中每个组的对应值,并检索A列中该组的对应值。假设这是我的数据框:nametypevotesbobdog10petecat8fluffydog5maxcat9使用df.groupby('type').votes.agg('max')返回:dog10cat9到目前为止,还不错。但是,我想弄清楚如何返回:dog10bobcat9max我已经得到了df.groupby(['type','votes']).name.agg('max'),

python - 如何将列表分配给 Pandas Data Frame 的现有列?

我应用一些函数并为Pandas数据框的现有列生成新的列值。但是df['col1']=new_list无法将新列表分配给该列。应用这种操作的方法是否错误,正确的方法是什么? 最佳答案 如果列表的长度等于DataFrame中的行数,它应该可以工作>>>df=pd.DataFrame({'A':[1,2,3],'B':[4,5,6]})>>>df['C']=[10,20,30]>>>dfABC014101252023630如果您的列表比DataFrame短或长,那么您将收到错误消息Lengthofvaluesdoesnotmatchlen

python - 我怎样才能近似 Pandas 时间序列的周期

有没有办法在pandas中近似时间序列的周期性?对于R,xts对象有一个名为periodicity的方法正是为了这个目的。有没有实现的方法来做到这一点?例如,我们能否从未指定频率的时间序列中推断出频率?importpandas.io.dataaswebaapl=web.get_data_yahoo("AAPL")[2010-01-0400:00:00,...,2013-12-1900:00:00]Length:999,Freq:None,Timezone:None这个系列的频率可以合理地近似为每天一次。更新:我认为显示R实现周期性方法的源代码可能会有所帮助。function(x,...

python - 根据列合并 Pandas 中数据框的行

我是Pandas的新手。我有一个看起来像这样的数据框sitenamenamedatecount0chess.comAutobiographer2012-05-0121chess.comAutobiographer2012-05-0512chess.comAutobiographer2012-05-1513chess.comAutobiographer2012-05-0114chess.comAutobiographer2012-05-1515chess.comAutobiographer2012-05-011如何根据日期合并行并对同一日期的计数求和。就像在sql中一样selectsit