Pandas-Datareader

python - pandas to_sql 给出 unicode 解码错误

我有一个通过read_csv加载的pandas数据框，我试图在尝试时通过to_sql将其推送到数据库df.to_sql("assessmentinfo_pivot",util.ENGINE)我得到一个unicodeDecodeError:UnicodeEncodeError:'ascii'codeccan'tencodecharactersinposition83-84:ordinalnotinrange(128)to_sql没有编码选项来为to_sql指定utf-8，并且引擎是在编码设置为utf-8的情况下创建的ENGINE=create_engine("mssql+pymssql:

python - PySpark DataFrame 上分组数据的 Pandas 样式转换

如果我们有一个由一列类别和一列值组成的Pandas数据框，我们可以通过执行以下操作删除每个类别中的均值:df["DemeanedValues"]=df.groupby("Category")["Values"].transform(lambdag:g-numpy.mean(g))据我所知，Spark数据帧不直接提供这种分组/转换操作(我在Spark1.5.0上使用PySpark)。那么，实现这种计算的最佳方式是什么？我试过使用group-by/join如下:df2=df.groupBy("Category").mean("Values")df3=df2.join(df)但它非常慢，因为

DataFrame PySpark code 34 Category python pandas apache-spark apache-spark-sql

python - Pandas :具有相同名称的列的平均值

我有一个包含如下列的数据框:['id','name','foo1','foo1','foo1','foo2','foo2','foo3']我想得到一个新的数据框，其中对共享相同名称的列进行平均:['id','name','foo1','foo2','foo3']这里的foo1列是原始数据框中名为foo1的三列的平均值，foo2是名为foo2的两列的平均值，foo3就是foo3注意:id和name不是数字，我必须保留它们。最佳答案基本思想是，您可以按列名进行分组，并对每个组进行均值运算。我看到了一些针对您的问题的评论，并尝试为您提

python Pandas code 39 pre

python - 如何在 Pandas 中同时突出显示一行和一列

我可以使用语法高亮列importpandasaspddf=pd.DataFrame([[1,0],[0,1]])df.style.apply(lambdax:['background:lightblue'ifx.name==0else''foriinx])同样，我可以通过传递axis=1来突出显示一行:df.style.apply(lambdax:['background:lightgreen'ifx.name==0else''foriinx],axis=1)但是我不知道如何同时做这两件事；问题是当我使用applymap时，我只得到值，而不是它们来自的系列的名称。

何在突出 image code section python pandas

python - 将数据转换为 Pandas 中缺失的数据

我有一个混合了0和其他数字的DataFrame。我想将0转换为缺失。例如，我正在寻找可以转换的命令In[618]:a=DataFrame(data=[[1,2],[0,1],[1,2],[0,0]])In[619]:aOut[619]:01012101212300到In[619]:aOut[619]:010121NaN12123NaNNaN我尝试了pandas.replace(0,NaN)，但我收到一个错误，指出NaN未定义。而且我看不到任何地方可以从中导入NaN。最佳答案只需执行fromnumpyimportnan。(您必须将

缺失 python section code NaN numpy pandas

python - 如何将 html 表转换为 pandas 数据框

pandas提供了一个有用的to_html()将DataFrame转换为htmltable。是否有任何有用的函数可以将其读回DataFrame？最佳答案 read_html在pandas0.12中发布的实用程序关于python-如何将html表转换为pandas数据框，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/16009778/

python pandas section code html dataframe html-table

python - 确保键的笛卡尔积出现在 Pandas 表中

我有一个包含两个键列的Pandas数据框，我想确保表中存在这些键的笛卡尔积(因为我必须制作一个包含所有组合的二维图)。我很难想出一个相当简短和惯用的方法来做到这一点。例如，我从这张表格开始，给出了水果和蔬菜的组合，以及它们在一起的味道:combofruitveg0tastyapplecarrot1yuckybananacarrot2tastybananalettuce3yuckylemonlettuce我想以这张表结束，其中出现了所有可能的组合:fruitvegcombo0applecarrottasty1applelettuceUNKNOWN2bananacarrotyucky3ba

保键 python code 39 lettuce pandas

python - matplotlib/pandas条形图的简单定制(标签、刻度等)

我是matplotlib的新手，我正尝试在pandas中使用它来绘制一些简单的图表。我有一个DataFrame，其中包含两个来自另一个DF的标签“score”和“person”。df1=DataFrame(df,columns=['score','person'])生成此输出:我正在尝试创建一个简单的条形图，以不同颜色显示每个人，这是我目前所拥有的:df1.plot(kind='bar',title='Ranking')我如何自定义它以便图表在x轴上以独特的颜色显示人名并移除图形周围的“框架”？我怎样才能使它成为水平条形图？预先感谢您的帮助。最佳答案

条形刻度 39 section code python matplotlib pandas

python - Pandas Groupby 应用函数来计算大于零的值

PandasGroupby应用函数计算大于零的值我按以下方式使用groupby和agg:df.groupby('group')['a'].agg({'mean':np.mean,'std':np.std})我还想计算同一列['a']中大于零的值下面一行按照我的意愿进行计数，sum(x>0forxindf['a'])但是我在申请groupby时无法正常工作。以下是我尝试将pandas计算应用于groupby的示例:df.groupby('group')['a'].apply(sum(x>0forxindf['a']))但我收到一条错误消息:AttributeError:'numpy.in

数来 Groupby code section pre python python-3.x pandas

python Pandas : how to turn a DataFrame with "factors" into a design matrix for linear regression?

如果没记错的话，在R中有一种称为因子的数据类型，当在DataFrame中使用时，它可以自动解压缩到回归设计矩阵的必要列中。例如，包含True/False/Maybe值的因子将转换为:100010or001为了使用较低级别的回归代码。有没有办法使用pandas库实现类似的东西？我看到Pandas中有一些回归支持，但由于我有自己定制的回归例程，我真的很感兴趣从异构数据构build计矩阵(2dnumpy数组或矩阵)，支持映射来回映射numpy对象的列和派生它的PandasDataFrame。更新:这是一个数据矩阵的示例，其中包含我正在考虑的那种异构数据(该示例来自Pandas手册):>>>d

regression DataFrame 39 gt section python factors

88 89 909192 93 94