sample_dataframe

python - 使用 Python 将 Pandas DataFrame 导出为 PDF 文件

在Pandas中为数据框生成PDF的有效方法是什么？最佳答案首先使用matplotlib绘制表格，然后生成pdfimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfrommatplotlib.backends.backend_pdfimportPdfPagesdf=pd.DataFrame(np.random.random((10,3)),columns=("col1","col2","col3"))#https://stackoverflow.com/ques

python - 将 NumPy 数组与 pandas DataFrame 连接(加入)

我有一个包含10行和5列的pandas数据框以及一个由零组成的numpy矩阵np.zeros((10,3))。我想将numpy矩阵连接到pandas数据帧，但我想在将numpy数组连接到它之前从pandas数据帧中删除最后一列。所以我最终会得到一个包含10行和5-1+3=7列的矩阵。我想我可以用new_dataframe=pd.concat([original_dataframe,pd.DataFrame(np.zeros((10,3)),dtype=np.int)],axis=1,ignore_index=True)其中original_dataframe有10行和5列。如何在连接n

DataFrame python code section pandas numpy

python - 如何从 pandas DataFrame 生成 n 级分层 JSON？

是否有一种有效的方法来创建分层JSON(n层深)，其中父值是键而不是变量标签？即:{"2017-12-31":{"Junior":{"Electronics":{"A":{"sales":0.440755}},{"B":{"sales":-3.230951}}},...etc...},...etc...},...etc...1。我的测试DataFrame:colIndex=pd.MultiIndex.from_product([['NewYork','Paris'],['Electronics','Household'],['A','B','C'],['Junior','Senior'

DataFrame python 34 39 sales json pandas

python - 想要将 Pandas Dataframe 绘制为具有 log10 比例 x 轴的多个直方图

我在Pandas数据框中有float据。每列代表一个变量(它们有字符串名称)，每一行代表一组值(这些行有不重要的整数名称)。>>>printdata0kppawr23kppaspyd13.31238713.26604022.7752020.1000003100.000000100.0000004100.00000039.437420517.01715033.019040...我想为每一列绘制直方图。我取得的最佳结果是使用dataframe的hist方法:data.hist(bins=20)但我希望每个直方图的x轴都在log10范围内。并且bins也在log10规模上，但这很容易使用bi

Dataframe python code data log pandas matplotlib histogram logarithm

python - 当字符串列内容比已有内容长时，HDFStore.append(string, DataFrame) 失败

我有一个通过HDFStore存储的PandasDataFrame，它主要存储有关我正在执行的测试运行的摘要行。每行中的几个字段包含可变长度的描述性字符串。当我进行测试运行时，我创建了一个新的DataFrame，其中只有一行:defexport_as_df(self):returnpd.DataFrame(data=[self._to_dict()],index=[datetime.datetime.now()])然后调用HDFStore.append(string,DataFrame)将新行添加到现有的DataFrame。除了其中一个字符串列的内容大于已经存在的最长实例之外，这工作正常

长时串列 pandas itemsize min_itemsize python dataframe hdf5 pytables

python - PySpark DataFrame 上分组数据的 Pandas 样式转换

如果我们有一个由一列类别和一列值组成的Pandas数据框，我们可以通过执行以下操作删除每个类别中的均值:df["DemeanedValues"]=df.groupby("Category")["Values"].transform(lambdag:g-numpy.mean(g))据我所知，Spark数据帧不直接提供这种分组/转换操作(我在Spark1.5.0上使用PySpark)。那么，实现这种计算的最佳方式是什么？我试过使用group-by/join如下:df2=df.groupBy("Category").mean("Values")df3=df2.join(df)但它非常慢，因为

DataFrame PySpark code 34 Category python pandas apache-spark apache-spark-sql

python Pandas : how to turn a DataFrame with "factors" into a design matrix for linear regression?

如果没记错的话，在R中有一种称为因子的数据类型，当在DataFrame中使用时，它可以自动解压缩到回归设计矩阵的必要列中。例如，包含True/False/Maybe值的因子将转换为:100010or001为了使用较低级别的回归代码。有没有办法使用pandas库实现类似的东西？我看到Pandas中有一些回归支持，但由于我有自己定制的回归例程，我真的很感兴趣从异构数据构build计矩阵(2dnumpy数组或矩阵)，支持映射来回映射numpy对象的列和派生它的PandasDataFrame。更新:这是一个数据矩阵的示例，其中包含我正在考虑的那种异构数据(该示例来自Pandas手册):>>>d

regression DataFrame 39 gt section python factors

python - 将 pandas DataFrame.plot 填充到 matplotlib 子图中

脑袋疼我有一些代码可以在一长列中生成33个图形#fig,axes=plt.subplots(nrows=11,ncols=3,figsize=(18,50))accountList=list(set(training.account))foriinrange(1,len(accountList)):training[training.account==accountList[i]].plot(kind='scatter',x='date_int',y='rate',title=accountList[i])#axes[0].set_ylabel('SuccessRate')我想将这些图

图中 matplotlib code accountList python pandas

python - 为什么 DataFrame.loc[[1]] 比 df.ix [[1]] 慢 1,800 倍，比 df.loc[1] 慢 3,500 倍？

自己试试看:importpandasaspds=pd.Series(xrange(5000000))%timeits.loc[[0]]#Youneedpandas0.15.1ornewerforittobethatslow1loops,bestof3:445msperloop更新:大概是2014年8月左右在0.15.1中引入的alegitimatebuginpandas。解决方法:使用旧版本的pandas等待新版本发布；得到一个尖端的开发者。来自github的版本；在您发布的pandas中手动进行一行修改；暂时使用.ix而不是.loc。我有一个包含480万行的DataFrame，使用.

DataFrame loc code strong df python performance pandas

python - "sample larger than population"in random.sample python

为自己创建一个简单的通行证生成器，我注意到如果我希望我的人口只有数字(0-9)，总共有10个选项，如果我希望我的长度超过10，它不会使用更多的数字然后一次并返回“样本大于总体”错误。是否可以维护代码，但添加/减少代码行使其工作？还是我必须使用随机选择？importstringimportrandomz=int(raw_input("for:\nnumbersonlychoose1,\nlettersonlychoose2,\nlettersandnumberschoose3,\nforeverythingchoose4:"))ifz==1:x=string.digitselifz==2

python sample string code random

30 31 323334 35 36