草庐IT

python - 如何将 pandas 数据框行转换为逗号分隔的字符串

我需要遍历pandasdf的每一行并将其转换为逗号分隔的字符串。例子:df3=DataFrame(np.random.randn(10,5),columns=['a','b','c','d','e'])abcde0-0.158897-0.7497990.2689210.0700350.0996001-0.863654-0.086814-0.614562-1.6788500.9802922-0.0981680.710652-0.456274-0.373153-0.53346331.001634-0.736187-0.8120340.223062-1.33797240.173549-0.5

python - 如何使用单个命令 [Python - Pandas] 获取所有列的数据类型?

我想查看存储在我的数据框中的所有列的数据类型,而无需遍历它们。路在何方? 最佳答案 10mintopandas有很好的例子DataFrame.dtypes:df2=pd.DataFrame({'A':1.,'B':pd.Timestamp('20130102'),'C':pd.Series(1,index=list(range(4)),dtype='float32'),'D':np.array([3]*4,dtype='int32'),'E':pd.Categorical(["test","train","test","train"

python - 使用 sklearn 的 KFold 分离 Pandas 数据框

我已经通过下面的代码获得了训练集和测试集的索引。df=pandas.read_pickle(filepath+filename)kf=KFold(n_splits=n_splits,shuffle=shuffle,random_state=randomState)result=next(kf.split(df),None)#traincanbeaccessedwithresult[0]#testcanbeaccessedwithresult[1]我想知道是否有更快的方法将它们与我检索到的行索引分别分成2个数据帧。 最佳答案 你需要D

python - 在 Pandas 中找到最接近给定时间的 DataFrame 行

我有一个由DatetimeIndex索引的Pandas数据框:DatetimeIndex:53732entries,1993-01-0712:23:58to2012-12-0220:06:23Datacolumns:Date(dd-mm-yy)_Time(hh-mm-ss)53732non-nullvaluesJulian_Day53732non-nullvaluesAOT_87053732non-nullvalues440-870Angstrom53732non-nullvalues440-675Angstrom53732non-nullvalues500-870Angstrom53

python - 计算 Pandas 数据框中每个特定单词的出现次数

我想计算数据框中每个特定单词的出现次数。我目前使用str.contains:a=df2[df2['col1'].str.contains("sample")].groupby('col2').size()n=a.apply(lambdax:1).sum()有没有一种方法可以匹配正则表达式并获取出现次数?在我的例子中,我有一个大数据框,我想匹配大约100个字符串。 最佳答案 更新:原始答案计算那些包含子字符串的行。要计算一个子字符串的所有出现次数,您可以使用.str.count:In[21]:df=pd.DataFrame(['hel

python - 在 Pandas 数据框中使用什么 dtype 表示金钱?

所以我有一个pandas数据框对象,其中包含货币列,精确到小数点后两位,例如“133.04”。没有3位或更多小数位的数字,只有两位。我的尝试:十进制模块我尝试为此使用Decimal模块,但是当我尝试像这样重新采样时gr_by_price=df['price'].resample(timeframe,how='ohlc')我明白了pandas.core.groupby.DataError:Nonumerictypestoaggregate就在这之前我检查数据类型print(type(df['price'][0]))我是这个图书馆和货币处理的新手,也许Decimal不是正确的选择?我该怎么

python - Pandas 按类别绘制数据框条形图和颜色

我想使用pandas为列中的类别绘制不同颜色的条形图。这是一个简单的例子:(索引是可变的)df:valuegroupvariablea101b91c81d72f62g53h43我想制作一个带颜色的条形图。我还想指定颜色。在我的原始数据集中,我有很多组。有人可以帮我解决这个问题吗? 最佳答案 只需将颜色参数传递给带有颜色列表的绘图函数:df['group'].plot(kind='bar',color=['r','g','b','r','g','b','r'])如果您想将值绘制为条形图,并且还希望组确定条形图的颜色,请使用:color

python - 如何测试对象是否为 pandas 日期时间索引?

如果我在一个我知道有日期时间索引的DataFrame上使用type,我会得到:In[17]:type(df.index)Out[17]:pandas.tseries.index.DatetimeIndex但是当我测试它时,我得到:In[18]:type(df.index)=='pandas.tseries.index.DatetimeIndex'Out[18]:False我知道我假设类型的类型是字符串,但我真的不知道还能尝试什么,而且搜索没有任何结果。 最佳答案 您可以使用isinstanceDatetimeIndex类的:In[1

python - 如何在 Pandas 数据框列中选择一系列值?

importpandasaspdimportnumpyasnpdata='filename.csv'df=pd.DataFrame(data)dfonetwothreefourfivea0.469112-0.282863-1.509059barTrueb0.9324241.2242347.823421barFalsec-1.1356321.212112-0.173215barFalsed0.2324242.3421120.982342unbarTruee0.119209-1.044236-0.861849barTruef-2.104569-0.4949291.071804barFals

python - 使用 numpy/scikit 函数保持 pandas 结构

我正在使用来自pandas的出色的read_csv()函数,它给出:In[31]:data=pandas.read_csv("lala.csv",delimiter=",")In[32]:dataOut[32]:Int64Index:12083entries,0to12082Columns:569entries,REGIONCtoSCALEKERdtypes:float64(51),int64(518)但是当我应用来自scikit-learn的函数时,我丢失了有关列的信息:fromsklearnimportpreprocessingpreprocessing.scale(data)给出