草庐IT

pyspark-dataframes

全部标签

python - 如何使用名称列表更改 pandas Dataframe 中的列名称?

我一直在尝试使用名称列表更改pandas数据框的列名称。正在使用以下代码:df.rename(columns=list_of_names,inplace=True)但是我每次都遇到类型错误,错误消息是“listobjectisnotcallable”。我想知道为什么会这样?我该怎么做才能解决这个问题?感谢您的帮助。 最佳答案 你可以用df.columns=['Leader','Time','Score'] 关于python-如何使用名称列表更改pandasDataframe中的列名称?,

python - 将 statsmodels 摘要对象转换为 Pandas Dataframe

我正在Windows10上使用statsmodels.formula.api(ver0.9.0)进行多元线性回归。拟合模型并使用以下行获取摘要后,我得到摘要对象格式的摘要.X_opt=X[:,[0,1,2,3]]regressor_OLS=sm.OLS(endog=y,exog=X_opt).fit()regressor_OLS.summary()OLSRegressionResults==============================================================================Dep.Variable:yR-squared

python - pandas dataframe group year index by decade

假设我有一个索引为每月时间步长的数据框,我知道我可以使用dataframe.groupby(lambdax:x.year)将每月数据分组为每年并应用其他操作。有什么方法可以快速对它们进行分组,比方说按十年分组?感谢任何提示。 最佳答案 要得到十年,您可以将年份除以10,然后乘以10。例如,如果您从>>>dates=pd.date_range('1/1/2001',periods=500,freq="M")>>>df=pd.DataFrame({"A":5*np.arange(len(dates))+2},index=dates)>>

python - 删除 pandas dataframe 列中包含 False 的行

我认为这是一个简单的修复,我不确定我遗漏了什么。我有一个这样的数据框:indexc1c2c32015-03-0701:27:05FalseFalseTrue2015-03-0701:27:10FalseFalseTrue2015-03-0701:27:15FalseFalseFalse2015-03-0701:27:20FalseFalseTrue2015-03-0701:27:25FalseFalseFalse2015-03-0701:27:30FalseFalseTrue我想删除c3中所有包含False的行。c3是一个dtype=bool。我一直遇到问题,因为它是boolean值而

python - 如何在不复制的情况下从单个 1D Numpy 数组构造 Pandas DataFrame

与我能找到的所有其他问题不同,我不想从同类Numpy数组创建DataFrame,也不想将结构化数组转换为DataFrame。我想要的是从每个列的单独一维Numpy数组创建一个DataFrame。我尝试了明显的DataFrame({"col":nparray,"col":nparray}),但这显示在我个人资料的顶部,所以它一定是在做一些非常慢的事情。据我了解,PandasDataFrames是用纯Python实现的,其中每一列都由一个Numpy数组支持,所以我认为有一种有效的方法可以做到这一点。我实际上想做的是从Cython有效地填充DataFrame。Cython具有允许高效访问Nu

python - pyLDAvis可视化pyspark生成的LDA模型

有没有人有使用PySpark库(特别是使用pyLDAvis)训练的LDA模型的数据可视化示例?我看过很多GenSim和其他库的示例,但没有看到PySpark。具体来说,我想知道将什么传递给pyLDAvis.prepare()函数以及如何从我的lda模型中获取它。这是我的代码:frompyspark.mllib.clusteringimportLDA,LDAModelfrompyspark.mllib.featureimportIDFfrompyspark.ml.featureimportCountVectorizerfrompyspark.mllib.linalgimportVecto

python - Pandas 应用于 dataframe 产生 '<built-in method values of ...'

我正在尝试构建一个GeoJSONobject.我的输入是一个包含地址列、纬度列和经度列的csv。然后,我从坐标中创建了Shapely点,将它们缓冲给定半径,并通过映射选项获取坐标字典-到目前为止,一切顺利。然后,引用thisquestion之后,我编写了以下函数来获取一系列词典:defmake_geojson(row):return{'geometry':row['geom'],'properties':{'address':row['address']}}我这样应用它:data['new_output']=data.apply(make_geojson,axis=1)我的结果列中充满

python - 在 Seaborn FacetGrid 中绘制多个 DataFrame 列

我正在使用下面的代码importseabornassnsg=sns.FacetGrid(dataframe,col='A',hue='A')g.map(plt.plot,'X','Y1')plt.show()制作这样的seaborn切面图:现在我想在这个图中添加另一行,在y轴上使用不同的变量,称之为Y2。结果应该类似于垂直堆叠由获得的两个图g=sns.FacetGrid(dataframe,col='A',hue='A')g.map(plt.plot,'X','Y1')plt.show()g=sns.FacetGrid(dataframe,col='A',hue='A')g.map(p

python - 从一天的开始按 n 天对 Pandas DataFrame 进行分组

我刚刚发现了Pandas的强大功能,我喜欢它,但我无法弄清楚这个问题:我有一个DataFramedf.head():lonlathfilenametime019.96121680.617627-0.077165600482002-05-1512:59:31.717467119.92391680.614847-0.018689600482002-05-1512:59:31.831467219.84939680.609257-0.089205600482002-05-1512:59:32.059467319.83077680.6078570.076485600482002-05-1512:

python - 将 pandas DataFrame 列添加到行的最佳方法

这个问题在这里已经有了答案:Meltingapandasdataframe(4个答案)Stackingdataframecolumns(Pandas)(1个回答)关闭4年前。我必须找到使用现有DataFrame创建新DataFrame的最佳方法。查看此链接以获得完整代码:jdoodle.com/a/xKP我有这种数据框:df=pd.DataFrame({'length':[112,214,52,88],'views':[10000,50000,25000,5000],'click':[55,64,85,9]},index=['id1','id2','id3','id4'])clickl