Dataframe

python Pandas : how to turn a DataFrame with "factors" into a design matrix for linear regression?

如果没记错的话，在R中有一种称为因子的数据类型，当在DataFrame中使用时，它可以自动解压缩到回归设计矩阵的必要列中。例如，包含True/False/Maybe值的因子将转换为:100010or001为了使用较低级别的回归代码。有没有办法使用pandas库实现类似的东西？我看到Pandas中有一些回归支持，但由于我有自己定制的回归例程，我真的很感兴趣从异构数据构build计矩阵(2dnumpy数组或矩阵)，支持映射来回映射numpy对象的列和派生它的PandasDataFrame。更新:这是一个数据矩阵的示例，其中包含我正在考虑的那种异构数据(该示例来自Pandas手册):>>>d

regression DataFrame 39 gt section python factors

Python - 像扩展函数一样扩展属性

问题如何扩展python属性？子类可以通过在重载版本中调用它来扩展父类(superclass)的函数，然后对结果进行操作。这是我说“扩展功能”时的意思的示例:#Extendingafunction(atongue-in-cheekexample)classNormalMath(object):def__init__(self,number):self.number=numberdefadd_pi(self):n=self.numberreturnn+3.1415classNewMath(object):defadd_pi(self):#NewMathdoesn'tknowhowNorm

Python 扩展 self dataframe prop inheritance properties extends

python - 将 pandas DataFrame.plot 填充到 matplotlib 子图中

脑袋疼我有一些代码可以在一长列中生成33个图形#fig,axes=plt.subplots(nrows=11,ncols=3,figsize=(18,50))accountList=list(set(training.account))foriinrange(1,len(accountList)):training[training.account==accountList[i]].plot(kind='scatter',x='date_int',y='rate',title=accountList[i])#axes[0].set_ylabel('SuccessRate')我想将这些图

图中 matplotlib code accountList python pandas

python - 为什么 DataFrame.loc[[1]] 比 df.ix [[1]] 慢 1,800 倍，比 df.loc[1] 慢 3,500 倍？

自己试试看:importpandasaspds=pd.Series(xrange(5000000))%timeits.loc[[0]]#Youneedpandas0.15.1ornewerforittobethatslow1loops,bestof3:445msperloop更新:大概是2014年8月左右在0.15.1中引入的alegitimatebuginpandas。解决方法:使用旧版本的pandas等待新版本发布；得到一个尖端的开发者。来自github的版本；在您发布的pandas中手动进行一行修改；暂时使用.ix而不是.loc。我有一个包含480万行的DataFrame，使用.

DataFrame loc code strong df python performance pandas

python - Pandas Dataframe 比较和浮点精度

我正在比较两个应该相同的数据帧。但是由于浮点精度，我被告知这些值不匹配。我在下面创建了一个示例来模拟它。我怎样才能得到正确的结果，以便最终比较数据框对两个单元格都返回true？a=pd.DataFrame({'A':[100,97.35000000001]})b=pd.DataFrame({'A':[100,97.34999999999]})printaA0100.00197.35printbA0100.00197.35print(a==b)A0True1False 最佳答案好的，您可以使用np.isclose为此:In[250]

Dataframe python code section isclose pandas

python - PySpark 将 'map' 类型的列转换为数据框中的多列

输入我有一列Parameters类型为map的形式:frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)d=[{'Parameters':{'foo':'1','bar':'2','baz':'aaa'}}]df=sqlContext.createDataFrame(d)df.collect()#[Row(Parameters={'foo':'1','bar':'2','baz':'aaa'})]df.printSchema()#root#|--Parameters:map(nullable=true)#||--key:str

多列为数 39 code Parameters python apache-spark dataframe pyspark apache-spark-sql

python - 将 Pandas Dataframe 单元格中的嵌套数组值拆分为多行

我有一个PandasDataFrame以下形式每年(2008年-2015年)每个ID一行。对于MaxTemp、MinTemp和Rain列，每个单元格都包含一个值数组，对应于当年的某一天，即上面的框架frame3.iloc[0]['MaxTemp'][0]是2011年1月1日的值frame3.iloc[0]['MaxTemp'][364]是2011年12月31日的值。我知道这是错误的结构，但这是我必须处理的数据。它以这种方式存储在MongoDB中(其中这些行之一相当于Mongo中的文档)。我想拆分这些嵌套数组，这样我就不会每年每个ID一行，而是每天每个ID一行。但是，在拆分数组时，我还想

多行 Dataframe code 2012 2011 python numpy pandas

python - 将 model.predict() 的结果与原始 pandas DataFrame 合并？

我正在尝试将predict方法的结果与pandas.DataFrame对象中的原始数据合并。fromsklearn.datasetsimportload_irisfromsklearn.cross_validationimporttrain_test_splitfromsklearn.treeimportDecisionTreeClassifierimportpandasaspdimportnumpyasnpdata=load_iris()#bearwithmeforthenextfewsteps...I'mtryingtowalkyouthrough#howmydataobjectl

DataFrame predict code train test python pandas scikit-learn

python - 将 Numpy 数组按列转换为 Pandas DataFrame(作为单行)

我有一个像这样的numpy数组:a=np.array([35,2,160,56,120,80,1,1,0,0,1])然后我尝试将该数组转换为具有逻辑“一列一值”的pandas数据框，如下所示:columns=['age','gender','height','weight','ap_hi','ap_lo','cholesterol','gluc','smoke','alco','active']values=adf=pd.DataFrame(a,columns=columns)这种方法引发ValueError:传递值的形状是(1,11)，索引暗示(11,11)。我做错了什么以及如何以正

DataFrame python 39 code columns arrays pandas numpy

python - Pandas 中的聚合

如何使用Pandas执行聚合？聚合后没有DataFrame!发生了什么？如何主要聚合字符串列(到lists,tuples,stringswithseparator)？如何汇总计数？如何创建由聚合值填充的新列？我已经看到这些反复出现的问题询问Pandas聚合功能的各个方面。今天关于聚合及其各种用例的大部分信息都分散在数十个措辞恶劣、无法搜索的帖子中。这里的目的是为后代整理一些更重要的观点。本问答是一系列有用的用户指南的下一部分:Howtopivotadataframe,PandasconcatHowdoIoperateonaDataFramewithaSeriesforeverycolu

python Pandas 39 code two dataframe pandas-groupby aggregation

44 45 464748 49 50