sample_dataframe

python - 类型注释 Pandas DataFrame

如果函数或方法返回PandasDataFrame，您如何记录列名和列类型？有没有办法在Python的内置类型注释中执行此操作，还是您只使用文档字符串？如果您只使用文档字符串，您如何格式化它们以尽可能简洁？最佳答案文档字符串格式我使用numpydocstring公约作为基础。如果函数的输入参数或返回参数是具有预定列的pandas数据框，那么我将添加一个reStructuredText样式table带有参数描述的列描述。例如:defrandom_dataframe(no_rows):"""Returndataframewithran

python - 没有日期时间索引的 pandas dataframe 每天重新采样

我在以下形式的pandas中有一个数据框:timestampslight72004-02-2800:58:45150.88262004-02-2800:59:45143.52342004-02-2801:00:45150.88422004-02-2801:01:15150.88592004-02-2801:02:15150.88这里注意索引不是timestamps列。但我想重新采样(或以某种方式对数据进行分类)以反射(reflect)每分钟、每小时、每天等光柱的平均值。我研究了pandas提供的resample方法，它需要数据帧具有该方法工作的数据时间索引(除非我误解了这一点)。所以我

dataframe python section code 2004 pandas time-series

python - 使用 matplotlib colormap 和 pandas dataframe.plot 函数

我正在尝试将matplotlib.colormap对象与pandas.plot函数结合使用:importpandasaspdimportmatplotlib.pyplotaspltimportmatplotlib.cmascmdf=pd.DataFrame({'days':[172,200,400,600]})cmap=cm.get_cmap('RdYlGn')df['days'].plot(kind='barh',colormap=cmap)plt.show()我知道我应该以某种方式告诉颜色图它被馈送的值的范围，但是我不知道在使用pandas.plot()函数时该怎么做，因为这个

matplotlib dataframe section import python pandas colormap

python - Pandas.DataFrame.rename 方法中的参数 "index"是什么？

PandasDataFrame有一个重命名方法，它接受一个名为“index”的参数。看不懂文档中对参数的描述:DataFrame.rename具体来说，我像文档网页上的示例一样使用它:df.rename(index=str,columns={"A":"a","B":"c"})我理解结果，但我不明白为什么我们设置index=str。index参数有什么用？为什么示例设置index=str？最佳答案 index参数用于重命名索引，以df为例:df.index#RangeIndex(start=0,stop=3,step=1)df.re

DataFrame amp index code section python pandas rename col

python - 检查 DataFrame 或 ndrray 是否包含数字

我坚持了几个小时:我有一个包含电子邮件地址列表的DataFrame，我想从这些电子邮件地址中检查邮件中是否包含数字I.E.roberto123@example.com，如果是，我希望将此数字附加到数组中:我已经尝试过使用DataFrame和ndarraywothnumpy，但它不起作用。这就是我想要做的:mail_addresses=pd.DataFrame(customers_df.iloc[:,0].values)mail_addresses=mail_addresses.dropna(axis=0,how='all')mail_addresses_toArray=mail_add

DataFrame python code 39 section pandas numpy

python - Pandas DataFrame 将多种类型转换为列

我想在实例化时为pandasDataFrame的列声明不同的类型:frame=pandas.DataFrame({..somedata..},dtype=[str,int,int])如果dtype只是一种类型(例如dtype=float)，但不是上面的多种类型，这会起作用-有没有办法做到这一点？常见的解决方案似乎是稍后转换:frame['somecolumn']=frame['somecolumn'].astype(float)但这有几个问题:很乱看起来它涉及不必要的复制操作-这对于大型数据集来说可能代价高昂。最佳答案您还可以创

DataFrame 多种 section 39 code python pandas

python - Pandas Dataframe 线图在 x 轴上显示日期

比较下面的代码:test=pd.DataFrame({'date':['20170527','20170526','20170525'],'ratio1':[1,0.98,0.97]})test['date']=pd.to_datetime(test['date'])test=test.set_index('date')ax=test.plot()我在最后添加了DateFormatter:test=pd.DataFrame({'date':['20170527','20170526','20170525'],'ratio1':[1,0.98,0.97]})test['date']=pd

Dataframe python 39 code matplotlib pandas datetime

python - 将相同的随机值分配给 python Dataframe 中的 A-B , B-A 对

我有一个类似的数据框SouDes1314232431324142我需要为0和1之间的每一对分配随机值，但必须为两个相似的对(如“1-3”、“3-1”和其他对)分配相同的随机值。我期待一个像这样的结果数据框SouDesVal130.1140.6230.9240.5310.1320.9410.6420.5如何在pythonpandas中分配相同的随机值相似对，如“A-B”和“B-A”。最佳答案让我们首先创建一个按axis=1排序的助手DF:In[304]:x=pd.DataFrame(np.sort(df,axis=1),df.in

python 配给 section code pre pandas dataframe

python - pandas:规范化 DataFrame

我在扁平化文件中输入了数据。我想通过将这些数据拆分成表格来规范化这些数据。我可以用pandas巧妙地做到这一点吗-也就是说，通过将扁平化数据读入DataFrame实例，然后应用一些函数来获得生成的DataFrame实例？例子:数据以CSV文件的形式在磁盘上提供给我，如下所示:ItemIdClientIdPriceQuotedItemDescription1110scrollofSneak1212scrollofSneak1313scrollofSneak222500scrollofInvisible242200scrollofInvisible我想创建两个DataFrame:ItemI

DataFrame python scroll code ItemId pandas database-normalization

python - 有条件地将 HDF5 文件读取到 pandas DataFrame

我有一个巨大的HDF5文件，我想将其中的一部分加载到pandasDataFrame中以执行一些操作，但我有兴趣过滤一些行。我可以用一个例子更好地解释:原始HDF5文件看起来像这样:ABCD10341120321531352241341551319103415212911303415411214503415103213213415etcetcetcetc我想做的是将它原封不动地加载到pandasDataframe，但只是whereA==1or3or4到目前为止，我可以使用以下方法加载整个HDF5:store=pd.HDFStore('Resutls2015_10_21.h5')df=pd

DataFrame python code 39 pre pandas hdf5