草庐IT

sample_dataframe

全部标签

python - Pandas DataFrame 步骤图 : where ="post"

我想知道如何通过matplotlibswhere="post"进入Pandas情节。importnumpyasnpimportpandasaspddf=pd.DataFrame(np.random.randn(36,3))df.plot(drawstyle="steps",linewidth=2)#thisdoesn'tworkdf.plot(drawstyle="steps",where='post')有谁知道如何实现这一点?提前致谢! 最佳答案 你只需要指定drawstyle="steps-post":df=pd.DataFra

python - PySpark DataFrame 上的 Sum 操作在类型正常时给出 TypeError

我在PySpark中有这样的DataFrame(这是一次take(3)的结果,dataframe很大):sc=SparkContext()df=[Row(owner=u'u1',a_d=0.1),Row(owner=u'u2',a_d=0.0),Row(owner=u'u1',a_d=0.3)]相同的owner将有更多的行。我需要做的是在分组后对每个所有者的字段a_d的值求和,如b=df.groupBy('owner').agg(sum('a_d').alias('a_d_sum'))但这会引发错误TypeError:unsupportedoperandtype(s)for+:'int

python - Pandas DataFrame 在复杂的 'if' 条件下使用前一行值来确定当前值

我想知道是否有更快的方法来执行以下循环?也许使用应用或滚动应用功能来实现这一点基本上,我需要访问前一行的值以确定当前单元格值。df.ix[0]=(np.abs(df.ix[0])>=So)*np.sign(df.ix[0])foriinrange(1,len(df)):forcolinlist(df.columns.values):if((df[col].ix[i]>1.25)&(df[col].ix[i-1]==0))|:df[col].ix[i]=1elif((df[col].ix[i]=0.5)&(df[col].ix[i-1]>0)):df[col].ix[i]=df[col]

python - 如何离散化 pandas DataFrame 中的值并转换为二进制矩阵?

我的意思是这样的:我有一个DataFrame,其中的列可能是分类的或名义的。对于每个观察(行),我想生成一个新行,其中变量的每个可能值现在都是它自己的二进制变量。例如这个矩阵(第一行是列标签)'a''b''c'one0.20two0.41two0.90three0.12one0.04two0.25会被转换成这样:'a''b''c'onetwothree[0.0,0.2)[0.2,0.4)[0.4,0.6)[0.6,0.8)[0.8,1.0]01234510001000100000010000010100000100000110000000110000001000100100000000

Python - 如何将 JSON 文件转换为 Dataframe

如何将JSON文件本身转换为数据帧以进行一些转换。例如,如果JSON文件读取:{"FirstName":"John","LastName":"Mark","MiddleName":"Lewis","username":"johnlewis2","password":"2910"}如何将它转换成这样的表格Column->FirstName|LastName|MiddleName|username|passwordRow----->John|Mark|Lewis|johnlewis2|2910 最佳答案 从字典对象创建数据框。impor

python - 保存 pd.DataFrame 时如何强制使用 parquet dtypes?

有没有办法强制parquet文件将pd.DataFrame列编码为给定类型,即使该列的所有值都为空?parquet在其模式中自动分配“null”这一事实阻止我将许多文件加载到单个dask.dataframe中。尝试使用df.column_name=df.column_name.astype(sometype)转换pandas列无效。为什么我会问这个我想将许多parquet文件加载到一个dask.dataframe中。所有文件都是使用df.to_parquet(filename)从尽可能多的pd.DataFrame实例生成的。所有数据框都具有相同的列,但对于某些给定的列,可能仅包含空值。

python - pandas 的 DataFrame 对象是否取代了异构数据类型的其他替代方案?

之前,有larry和structured/recordarrays在NumPy中,但我想知道鉴于pandas包的快速发展,它们是否会以任何频率使用。来自R,我总是会被困在解压缩记录数组以修改来自多个列的值并将它们重新分配回结构中,但我很高兴pandas现在允许它的数据帧.我想知道记录数组是否有任何用途仍然优越(它是否有一些pandas没有的有用方法)? 最佳答案 这是pandas和numpy记录数组之间的一个很好的解释和简单的比较-Normalize/Standardizeanumpyrecarray

python - 通过 index 和 cols 合并/加入/追加两个带有 MultiIndex 列的 Pandas DataFrame

为了这个我一直在用头撞table,不知道有没有办法,也许我正在尝试一些不可能的事情。我有两个带有MultiIndex列(三级)和时间索引(单级)的DataFrame。第一个是这样的:bordera-bc-dfromabctobad2009-03-01-0.778346-0.928997NaN2009-03-02-1.3525591.247335NaN2009-03-03-0.9679390.432638NaN2009-03-040.786094-2.209559NaN2009-03-05-0.0013381.084152NaN2009-03-061.163334NaNNaN2009-0

python - sklearn 问题 : Found arrays with inconsistent numbers of samples when doing regression

这个问题之前似乎有人问过,但我似乎无法评论以进一步澄清已接受的答案,而且我无法弄清楚所提供的解决方案。我正在尝试学习如何使用sklearn处理我自己的数据。我基本上只是得到了过去100年中两个不同国家GDP的年度百分比变化。我现在只是想学习使用单个变量。我基本上想做的是使用sklearn来预测国家A的GDP百分比变化将给定国家B的GDP的百分比变化。问题是我收到一条错误消息:ValueError:Foundarrayswithinconsistentnumbersofsamples:[1107]这是我的代码:importsklearn.linear_modelaslmimportnum

python - 从 DataFrame 行获取行索引

是否可以在不添加包含行号的额外行的情况下获取DataFrame行的行号(即“索引值的序号位置”)(索引可以是任意的),即甚至是MultiIndex)?>>>importpandasaspd>>>df=pd.DataFrame({'a':[2,3,4,2,4,6]})>>>result=df[df.a>3]>>>result.iloc[0]a4Name:2,dtype:int64#buthowcanIgettheoriginalrowindexofiloc[0]indf?我本可以完成df['row_index']=range(len(df))这将保持原始行号,但我想知道Pandas是否有