草庐IT

dataframe

全部标签

python - 想要将 Pandas Dataframe 绘制为具有 log10 比例 x 轴的多个直方图

我在Pandas数据框中有float据。每列代表一个变量(它们有字符串名称),每一行代表一组值(这些行有不重要的整数名称)。>>>printdata0kppawr23kppaspyd13.31238713.26604022.7752020.1000003100.000000100.0000004100.00000039.437420517.01715033.019040...我想为每一列绘制直方图。我取得的最佳结果是使用dataframe的hist方法:data.hist(bins=20)但我希望每个直方图的x轴都在log10范围内。并且bins也在log10规模上,但这很容易使用bi

python - 当字符串列内容比已有内容长时,HDFStore.append(string, DataFrame) 失败

我有一个通过HDFStore存储的PandasDataFrame,它主要存储有关我正在执行的测试运行的摘要行。每行中的几个字段包含可变长度的描述性字符串。当我进行测试运行时,我创建了一个新的DataFrame,其中只有一行:defexport_as_df(self):returnpd.DataFrame(data=[self._to_dict()],index=[datetime.datetime.now()])然后调用HDFStore.append(string,DataFrame)将新行添加到现有的DataFrame。除了其中一个字符串列的内容大于已经存在的最长实例之外,这工作正常

python - PySpark DataFrame 上分组数据的 Pandas 样式转换

如果我们有一个由一列类别和一列值组成的Pandas数据框,我们可以通过执行以下操作删除每个类别中的均值:df["DemeanedValues"]=df.groupby("Category")["Values"].transform(lambdag:g-numpy.mean(g))据我所知,Spark数据帧不直接提供这种分组/转换操作(我在Spark1.5.0上使用PySpark)。那么,实现这种计算的最佳方式是什么?我试过使用group-by/join如下:df2=df.groupBy("Category").mean("Values")df3=df2.join(df)但它非常慢,因为

python - 如何将 html 表转换为 pandas 数据框

pandas提供了一个有用的to_html()将DataFrame转换为htmltable。是否有任何有用的函数可以将其读回DataFrame? 最佳答案 read_html在pandas0.12中发布的实用程序 关于python-如何将html表转换为pandas数据框,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/16009778/

python Pandas : how to turn a DataFrame with "factors" into a design matrix for linear regression?

如果没记错的话,在R中有一种称为因子的数据类型,当在DataFrame中使用时,它可以自动解压缩到回归设计矩阵的必要列中。例如,包含True/False/Maybe值的因子将转换为:100010or001为了使用较低级别的回归代码。有没有办法使用pandas库实现类似的东西?我看到Pandas中有一些回归支持,但由于我有自己定制的回归例程,我真的很感兴趣从异构数据构build计矩阵(2dnumpy数组或矩阵),支持映射来回映射numpy对象的列和派生它的PandasDataFrame。更新:这是一个数据矩阵的示例,其中包含我正在考虑的那种异构数据(该示例来自Pandas手册):>>>d

Python - 像扩展函数一样扩展属性

问题如何扩展python属性?子类可以通过在重载版本中调用它来扩展父类(superclass)的函数,然后对结果进行操作。这是我说“扩展功能”时的意思的示例:#Extendingafunction(atongue-in-cheekexample)classNormalMath(object):def__init__(self,number):self.number=numberdefadd_pi(self):n=self.numberreturnn+3.1415classNewMath(object):defadd_pi(self):#NewMathdoesn'tknowhowNorm

python - 将 pandas DataFrame.plot 填充到 matplotlib 子图中

脑袋疼我有一些代码可以在一长列中生成33个图形#fig,axes=plt.subplots(nrows=11,ncols=3,figsize=(18,50))accountList=list(set(training.account))foriinrange(1,len(accountList)):training[training.account==accountList[i]].plot(kind='scatter',x='date_int',y='rate',title=accountList[i])#axes[0].set_ylabel('SuccessRate')我想将这些图

python - 为什么 DataFrame.loc[[1]] 比 df.ix [[1]] 慢 1,800 倍,比 df.loc[1] 慢 3,500 倍?

自己试试看:importpandasaspds=pd.Series(xrange(5000000))%timeits.loc[[0]]#Youneedpandas0.15.1ornewerforittobethatslow1loops,bestof3:445msperloop更新:大概是2014年8月左右在0.15.1中引入的alegitimatebuginpandas。解决方法:使用旧版本的pandas等待新版本发布;得到一个尖端的开发者。来自github的版本;在您发布的pandas中手动进行一行修改;暂时使用.ix而不是.loc。我有一个包含480万行的DataFrame,使用.

python - Pandas Dataframe 比较和浮点精度

我正在比较两个应该相同的数据帧。但是由于浮点精度,我被告知这些值不匹配。我在下面创建了一个示例来模拟它。我怎样才能得到正确的结果,以便最终比较数据框对两个单元格都返回true?a=pd.DataFrame({'A':[100,97.35000000001]})b=pd.DataFrame({'A':[100,97.34999999999]})printaA0100.00197.35printbA0100.00197.35print(a==b)A0True1False 最佳答案 好的,您可以使用np.isclose为此:In[250]

python - PySpark 将 'map' 类型的列转换为数据框中的多列

输入我有一列Parameters类型为map的形式:frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)d=[{'Parameters':{'foo':'1','bar':'2','baz':'aaa'}}]df=sqlContext.createDataFrame(d)df.collect()#[Row(Parameters={'foo':'1','bar':'2','baz':'aaa'})]df.printSchema()#root#|--Parameters:map(nullable=true)#||--key:str