PANDAS

python - 基于 DataFrame 将参数传递给 stats.friedmanchisquare 的正确方法是什么？

我正在尝试将值从数据帧df传递到stats.friedmanchisquare，其形状为(11,17)。这就是对我有效的方法(在此示例中仅适用于三行):df=df.as_matrix()printstats.friedmanchisquare(df[1,:],df[2,:],df[3,:])产生(16.714285714285694,0.00023471398805908193)但是，当我想使用df的所有11行时，代码行太长了。首先，我尝试通过以下方式传递值:df=df.as_matrix()printstats.friedmanchisquare([df[x,:]forxinnp.a

python - 将两个指数不匹配的 Pandas 系列相乘

从df创建了两个系列:s1和s2。每个都有相同的长度但不同的索引。s1.multiply(s2)合并不匹配的索引，而不是与它们相乘。我只想将s1与s2相乘，忽略不匹配的索引。我可以运行s1.reset_index()和s2.reset_index()然后从这两个dfs中取出我想要的列，因为它将原始索引转换为一个单独的专栏，但这很乏味，我认为可能有更简单的方法来做到这一点。s1.multiply(s2,axis='columns')好像也没用最佳答案我认为使用reset_index()是正确的方法，但是有一个选项可以删除索引，而不

相乘 python code reset_index index pandas series indices multiplication

python - Pandas df 的流数据

我正在尝试模拟使用pandas来访问不断变化的文件。我有一个文件读取一个csv文件，向其中添加一行，然后随机休眠一段时间以模拟批量输入。importpandasaspdfromtimeimportsleepimportrandomdf2=pd.DataFrame(data=[['test','trial']],index=None)whileTrue:df=pd.read_csv('data.csv',header=None)df.append(df2)df.to_csv('data.csv',index=False)sleep(random.uniform(0.025,0.3))第二

python Pandas 39 data import streaming

python - 绘制排序的热图保持 (x,y) 值颜色

我一直在使用python、pandas和seaborn来获得具有不同颜色图/列的热图。感谢this问题我做了以下事情:示例数据框(sample.csv):X,a,b,cA,0.5,0.7,0.4B,0.9,0.3,0.8C,0.3,0.4,0.7使用Seaborn绘制热图importpandasaspdimportmatplotlibasmpl#SetnewBackendtoUseSeaborn#mpl.use('Agg')importseabornassnsimportmatplotlib.pyplotaspltimportmatplotlib.cmascmimportcolorsy

热图 python code import pandas matplotlib heatmap seaborn

Python - 在 Pandas DataFrame 中取消嵌套单元格

假设我有DataFramedf:abcvf3|4|5v26vf4|5我想生成这个df:abcvf3vf4vf5v26vf4vf5我知道如何使用tidyr包在R中进行这种转换。在pandas中有没有一种简单的方法可以做到这一点？最佳答案你可以:importnumpyasnpdf=df.set_index(['a','b'])df=df.astype(str)+'|'#There'saspace''tomatchthereplacelaterdf=df.c.str.split('|',expand=True).stack().res

DataFrame Python code section 39 pandas reshape

python - 使用 pandas.DataFrame 设置值

拥有这个DataFrame:importpandasdates=pandas.date_range('2016-01-01',periods=5,freq='H')s=pandas.Series([0,1,2,3,4],index=dates)df=pandas.DataFrame([(1,2,s,8)],columns=['a','b','foo','bar'])df.set_index(['a','b'],inplace=True)df我想用一个简单的旧系列替换那里的系列，但重新采样到一天的时间段(即x.resample('D').sum().dropna())。当我尝试时:df[

DataFrame python 39 code pandas

python - 从远程服务器中提取大量数据到 DataFrame 中

为了提供尽可能多的上下文，我正在尝试使用psycopg2进行连接，将存储在远程postgres服务器(heroku)上的一些数据提取到pandasDataFrame中。我对两个特定的表感兴趣，users和events，并且连接工作正常，因为在下拉用户数据时importpandas.io.sqlassql#[...]users=sql.read_sql("SELECT*FROMusers",conn)等待几秒钟后，DataFrame按预期返回。Int64Index:67458entries,0to67457Datacolumns(total35columns):[...]然而，当试图直接

DataFrame python code sql read postgresql pandas psycopg2

python - pandas python 中没有名为 read_csv 的属性

我是机器学习的新手，正在使用Python中的pandas创建数据集。我查阅了一个教程，只是尝试了一个用于创建数据框的基本代码，但我不断收到以下回溯信息:AttributeError:'module'对象没有属性'read_csv'我已将Excel13中的csv文件保存为csv(逗号分隔)格式。这是我的代码:importpandasimportcsvmydata=pandas.read_csv('foo.csv')target=mydata["Label"]data=mydata.ix[:,:-1] 最佳答案工作目录中有一个名为pa

python 名为 section pandas code csv dataset attributeerror

python - Patsy:测试数据中分类字段的新级别

我正在尝试使用Patsy(使用sklearn、pandas)创建一个简单的回归模型。R风格的公式创建是一大亮点。我的数据包含一个名为“ship_city”的字段，它可以包含来自印度的任何城市。由于我将数据划分为训练集和测试集，因此有几个城市仅出现在其中一个集中。代码片段如下:df_train_Y,df_train_X=dmatrices(formula,data=df_train,return_type='dataframe')df_train_Y_design_info,df_train_X_design_info=df_train_Y.design_info,df_train_X.

中分级别 train section pandas python scikit-learn patsy

python - 我应该如何构建和访问数据表，以便我可以在 Python 3.5 中轻松比较子集？

是否有更快、更pythonic的方式来做到这一点？是什么生成此警告UserWarning:BooleanSerieskeywillbe重新索引以匹配DataFrame索引。“DataFrame索引。”，UserWarning我应该关心它吗？我有一个包含3列的csv文件:组织、月份、人员。|org|month|person||---|----------|------||1|2014-01-01|100||1|2014-01-01|200||1|2014-01-02|200||2|2014-01-01|300|我已将其读入pandas.core.frame.DataFrame中:data

建和 python org data code python-3.x pandas dataframe

78 79 808182 83 84