pyspark-dataframes

python - pandas DataFrame 多列的并排箱线图

一年的样本数据:importpandasaspdimportnumpy.randomasrndimportseabornassnsn=365df=pd.DataFrame(data={"A":rnd.randn(n),"B":rnd.randn(n)+1},index=pd.date_range(start="2017-01-01",periods=n,freq="D"))我想按月份并排绘制这些数据的箱线图(即，每月两个箱子，一个用于A，一个用于B)。对于单列sns.boxplot(df.index.month,df["A"])工作正常。但是，sns.boxplot(df.index.

多列并排 code 34 section python pandas plot seaborn boxplot

python - 带有 HappyBase 连接池的 PySpark dataframe.foreach() 返回 'TypeError: can' t pickle thread.lock 对象'

我有一个PySpark作业可以更新HBase中的一些对象(Sparkv1.6.0；happybasev0.9)。如果我为每一行打开/关闭一个HBase连接，它会有点工作:defprocess_row(row):conn=happybase.Connection(host=[hbase_master])#updateHBaserecordwithdatafromrowconn.close()my_dataframe.foreach(process_row)几千次更新插入后，我们开始看到这样的错误:TTransportException:Couldnotconnectto[hbase_ma

amp HappyBase code section dataframe python apache-spark pyspark

python - 使用 Python 将 Pandas DataFrame 导出为 PDF 文件

在Pandas中为数据框生成PDF的有效方法是什么？最佳答案首先使用matplotlib绘制表格，然后生成pdfimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfrommatplotlib.backends.backend_pdfimportPdfPagesdf=pd.DataFrame(np.random.random((10,3)),columns=("col1","col2","col3"))#https://stackoverflow.com/ques

DataFrame python section stackoverflow matplotlib pandas pdf reportlab

python - 将 NumPy 数组与 pandas DataFrame 连接(加入)

我有一个包含10行和5列的pandas数据框以及一个由零组成的numpy矩阵np.zeros((10,3))。我想将numpy矩阵连接到pandas数据帧，但我想在将numpy数组连接到它之前从pandas数据帧中删除最后一列。所以我最终会得到一个包含10行和5-1+3=7列的矩阵。我想我可以用new_dataframe=pd.concat([original_dataframe,pd.DataFrame(np.zeros((10,3)),dtype=np.int)],axis=1,ignore_index=True)其中original_dataframe有10行和5列。如何在连接n

DataFrame python code section pandas numpy

python - 如何从 pandas DataFrame 生成 n 级分层 JSON？

是否有一种有效的方法来创建分层JSON(n层深)，其中父值是键而不是变量标签？即:{"2017-12-31":{"Junior":{"Electronics":{"A":{"sales":0.440755}},{"B":{"sales":-3.230951}}},...etc...},...etc...},...etc...1。我的测试DataFrame:colIndex=pd.MultiIndex.from_product([['NewYork','Paris'],['Electronics','Household'],['A','B','C'],['Junior','Senior'

DataFrame python 34 39 sales json pandas

python - 想要将 Pandas Dataframe 绘制为具有 log10 比例 x 轴的多个直方图

我在Pandas数据框中有float据。每列代表一个变量(它们有字符串名称)，每一行代表一组值(这些行有不重要的整数名称)。>>>printdata0kppawr23kppaspyd13.31238713.26604022.7752020.1000003100.000000100.0000004100.00000039.437420517.01715033.019040...我想为每一列绘制直方图。我取得的最佳结果是使用dataframe的hist方法:data.hist(bins=20)但我希望每个直方图的x轴都在log10范围内。并且bins也在log10规模上，但这很容易使用bi

Dataframe python code data log pandas matplotlib histogram logarithm

python - 当字符串列内容比已有内容长时，HDFStore.append(string, DataFrame) 失败

我有一个通过HDFStore存储的PandasDataFrame，它主要存储有关我正在执行的测试运行的摘要行。每行中的几个字段包含可变长度的描述性字符串。当我进行测试运行时，我创建了一个新的DataFrame，其中只有一行:defexport_as_df(self):returnpd.DataFrame(data=[self._to_dict()],index=[datetime.datetime.now()])然后调用HDFStore.append(string,DataFrame)将新行添加到现有的DataFrame。除了其中一个字符串列的内容大于已经存在的最长实例之外，这工作正常

长时串列 pandas itemsize min_itemsize python dataframe hdf5 pytables

python - PySpark DataFrame 上分组数据的 Pandas 样式转换

如果我们有一个由一列类别和一列值组成的Pandas数据框，我们可以通过执行以下操作删除每个类别中的均值:df["DemeanedValues"]=df.groupby("Category")["Values"].transform(lambdag:g-numpy.mean(g))据我所知，Spark数据帧不直接提供这种分组/转换操作(我在Spark1.5.0上使用PySpark)。那么，实现这种计算的最佳方式是什么？我试过使用group-by/join如下:df2=df.groupBy("Category").mean("Values")df3=df2.join(df)但它非常慢，因为

DataFrame PySpark code 34 Category python pandas apache-spark apache-spark-sql

python Pandas : how to turn a DataFrame with "factors" into a design matrix for linear regression?

如果没记错的话，在R中有一种称为因子的数据类型，当在DataFrame中使用时，它可以自动解压缩到回归设计矩阵的必要列中。例如，包含True/False/Maybe值的因子将转换为:100010or001为了使用较低级别的回归代码。有没有办法使用pandas库实现类似的东西？我看到Pandas中有一些回归支持，但由于我有自己定制的回归例程，我真的很感兴趣从异构数据构build计矩阵(2dnumpy数组或矩阵)，支持映射来回映射numpy对象的列和派生它的PandasDataFrame。更新:这是一个数据矩阵的示例，其中包含我正在考虑的那种异构数据(该示例来自Pandas手册):>>>d

regression DataFrame 39 gt section python factors

python - 将 pandas DataFrame.plot 填充到 matplotlib 子图中

脑袋疼我有一些代码可以在一长列中生成33个图形#fig,axes=plt.subplots(nrows=11,ncols=3,figsize=(18,50))accountList=list(set(training.account))foriinrange(1,len(accountList)):training[training.account==accountList[i]].plot(kind='scatter',x='date_int',y='rate',title=accountList[i])#axes[0].set_ylabel('SuccessRate')我想将这些图

图中 matplotlib code accountList python pandas

41 42 434445 46 47