dataframe_草庐IT

python - 使用第一列作为索引的 Excel 到 Pandas DataFrame

我在Excel中有一个非常简单的表格，我正在尝试将其读入DataFrame代码:frompandasimportDataFrame,Seriesimportpandasaspddf=pd.read_excel('params.xlsx',header=[0,1],index_col=None)这会产生以下DataFrame:我没想到param1.key会成为索引，尤其是在设置了index_col=None之后。有没有一种方法可以使用生成的索引而不是第一列的数据将数据放入DataFrame中？更新—以下是您尝试reset_index()解决问题时发生的情况:版本信息:python3.5.

python - 基于 DataFrame 将参数传递给 stats.friedmanchisquare 的正确方法是什么？

我正在尝试将值从数据帧df传递到stats.friedmanchisquare，其形状为(11,17)。这就是对我有效的方法(在此示例中仅适用于三行):df=df.as_matrix()printstats.friedmanchisquare(df[1,:],df[2,:],df[3,:])产生(16.714285714285694,0.00023471398805908193)但是，当我想使用df的所有11行时，代码行太长了。首先，我尝试通过以下方式传递值:df=df.as_matrix()printstats.friedmanchisquare([df[x,:]forxinnp.a

friedmanchisquare DataFrame code stats python numpy pandas scipy

Python - 在 Pandas DataFrame 中取消嵌套单元格

假设我有DataFramedf:abcvf3|4|5v26vf4|5我想生成这个df:abcvf3vf4vf5v26vf4vf5我知道如何使用tidyr包在R中进行这种转换。在pandas中有没有一种简单的方法可以做到这一点？最佳答案你可以:importnumpyasnpdf=df.set_index(['a','b'])df=df.astype(str)+'|'#There'saspace''tomatchthereplacelaterdf=df.c.str.split('|',expand=True).stack().res

DataFrame Python code section 39 pandas reshape

python - 使用 pandas.DataFrame 设置值

拥有这个DataFrame:importpandasdates=pandas.date_range('2016-01-01',periods=5,freq='H')s=pandas.Series([0,1,2,3,4],index=dates)df=pandas.DataFrame([(1,2,s,8)],columns=['a','b','foo','bar'])df.set_index(['a','b'],inplace=True)df我想用一个简单的旧系列替换那里的系列，但重新采样到一天的时间段(即x.resample('D').sum().dropna())。当我尝试时:df[

DataFrame python 39 code pandas

python - 从远程服务器中提取大量数据到 DataFrame 中

为了提供尽可能多的上下文，我正在尝试使用psycopg2进行连接，将存储在远程postgres服务器(heroku)上的一些数据提取到pandasDataFrame中。我对两个特定的表感兴趣，users和events，并且连接工作正常，因为在下拉用户数据时importpandas.io.sqlassql#[...]users=sql.read_sql("SELECT*FROMusers",conn)等待几秒钟后，DataFrame按预期返回。Int64Index:67458entries,0to67457Datacolumns(total35columns):[...]然而，当试图直接

DataFrame python code sql read postgresql pandas psycopg2

python - 如何将 Spark Streaming 数据转换为 Spark DataFrame

到目前为止，Spark还没有创建流式数据的DataFrame，但是我在做异常检测的时候，使用DataFrame进行数据分析更加方便快捷。我已经完成了这部分，但是当我尝试使用流数据进行实时异常检测时，问题出现了。试了好几种方法，仍然无法将DStream转为DataFrame，也无法将DStream内部的RDD转为DataFrame。这是我最新版本的代码的一部分:importsysimportrefrompysparkimportSparkContextfrompyspark.sql.contextimportSQLContextfrompyspark.sqlimportRowfrompy

Spark DataFrame import section pyspark python spark-streaming

python - 我应该如何构建和访问数据表，以便我可以在 Python 3.5 中轻松比较子集？

是否有更快、更pythonic的方式来做到这一点？是什么生成此警告UserWarning:BooleanSerieskeywillbe重新索引以匹配DataFrame索引。“DataFrame索引。”，UserWarning我应该关心它吗？我有一个包含3列的csv文件:组织、月份、人员。|org|month|person||---|----------|------||1|2014-01-01|100||1|2014-01-01|200||1|2014-01-02|200||2|2014-01-01|300|我已将其读入pandas.core.frame.DataFrame中:data

建和 python org data code python-3.x pandas dataframe

python - npartitions 会影响 dask.dataframe.head() 的结果吗？

运行以下代码时，dask.dataframe.head()的结果取决于npartitions:importdask.dataframeasddimportpandasaspddf=pd.DataFrame({'A':[1,2,3],'B':[2,3,4]})ddf=dd.from_pandas(df,npartitions=3)print(ddf.head())这会产生以下结果:AB012但是，当我将npartitions设置为1或2时，我得到了预期的结果:AB012123234这似乎很重要，npartitions小于数据帧的长度。这是故意的吗？最佳答案

npartitions dataframe code section python pandas dask

python - 多个分类特征(列)的特征散列

我想将“流派”特征散列到6列中，并将“出版商”特征单独放入另外六列中。我想要像下面这样的东西:GenrePublisher0123450123450PlatformNintendo0.02.02.0-1.01.00.00.02.02.0-1.01.00.01RacingNoir-1.00.00.00.00.0-1.0-1.00.00.00.00.0-1.02SportsLaura-2.02.00.0-2.00.00.0-2.02.00.0-2.00.00.03RoleplayingJohn-2.02.02.00.01.00.0-2.02.02.00.01.00.04PuzzleJohn

python 特征 39 0.0 code pandas dataframe scikit-learn feature-extraction

python - pandas.DataFrame 可以有列表类型的列吗？

是否可以创建包含列表类型字段的pandas.DataFrame？例如，我想将以下csv加载到pandas.DataFrame:id,scores1,"[1,2,3,4]"2,"[1,2]"3,"[0,2,4]" 最佳答案去除双引号:id,scores1,[1,2,3,4]2,[1,2]3,[0,2,4]你应该能够做到这一点:query=[[1,[1,2,3,4]],[2,[1,2]],[3,[0,2,4]]]df=pandas.DataFrame(query,columns=['id','scores'])printdf

DataFrame python section code pandas