dataframe

python - 将 python pandas DataFrame 转换为 R dataframe 以与 rpy2 一起使用的问题

我无法将Python中的pandasDataFrame转换为R对象，以便将来使用rpy2在R中使用。新的pandas版本0.8.0(几周前发布)具有将pandasDataFrames转换为RDataFrames的功能。问题在于转换我的pandasDataFrame的第一列，它由pythondatetime对象组成(在时间序列中连续)。转换为R数据帧会返回日期和时间的StrVector，而不是我认为称为“POSIXct”对象的R日期时间类型对象的向量。我知道使用命令“as.POSIXct('yyyy-mm-ddhh:mm:ss')”将返回类型的字符串转换为POSIXct的命令。不幸的是，

python - pandas groupby 后缺少列

我有一个pandas数据框df。我将它按3列分组，然后计算结果。当我这样做时，我丢失了一些信息，特别是name列。此列与desk_id列1:1映射。无论如何都将两者都包含在我的最终数据框中？这是数据框:shift_idshift_start_timeshift_end_timenameend_timedesk_idshift_hour0374230642014-01-1708:00:002014-01-1712:00:00AdamScott2014-01-1710:16:41.0400001555798721374230642014-01-1708:00:002014-01-1712:

groupby python code 37423064 15557987 pandas group-by dataframe

python - pandas.DataFrame.equals 的契约(Contract)

我有一个函数的简单测试用例，它返回一个可能包含NaN的df。我正在测试输出和预期输出是否相等。>>>outputOut[1]:rttsttttct020483009011409690130120702651[3rowsx5columns]>>>expectedOut[2]:rttsttttct020483009011409690130120702651[3rowsx5columns]>>>output==expectedOut[3]:rttsttttct0TrueTrueTrueTrueTrue1TrueTrueTrueTrueTrue2TrueTrueTrueTrueTrue但是，由

DataFrame Contract code True 39 python pandas

python - Pandas DataFrames 如何看起来相同但 equals() 失败？

为了确认我理解Pandasdf.groupby()和df.reset_index()的作用，我尝试从数据帧到相同数据的分组版本并返回。往返之后，列和行必须再次排序，因为groupby()影响行顺序而reset_index()影响列顺序，但经过两次快速操作后将列和索引按顺序放回去，数据框看起来相同:相同的列名列表。每列的数据类型相同。相应的索引值严格相等。对应的数据值严格相等。然而，在所有这些检查都成功之后，df1.equals(df5)返回了惊人的值False。这些数据帧之间的区别是equals()揭示了我还没有弄清楚如何检查自己？测试代码:csv_text="""\Title,Yea

DataFrames python code 39 True pandas

python - 如何通过混合 iloc 和 loc 在 pandas DataFrame 中设置值

假设我想要一个函数来更改DataFrame给定行号中命名列的值。一种选择是找到列的位置并使用iloc，就像这样:defChangeValue(df,rowNumber,fieldName,newValue):columnNumber=df.columns.get_loc(fieldName)df.iloc[rowNumber,columnNumber]=newValue但我想知道是否有一种方法可以一次性使用iloc和loc的魔力，而跳过手动转换。有什么想法吗？最佳答案我建议将iloc与Index.get_loc方法结合使用。例如

中设 DataFrame code section iloc python pandas

python - 向量化 pandas.DataFrame 的整合

我有一个力-位移数据的DataFrame。位移数组已设置为DataFrame索引，列是我针对不同测试的各种力曲线。如何计算完成的功(即“曲线下的面积”)？我看了numpy.trapz这似乎可以满足我的需要，但我认为我可以避免像这样循环遍历每一列:importnumpyasnpimportpandasaspdforces=pd.read_csv(...)work_done={}forcolinforces.columns:work_done[col]=np.trapz(forces.loc[col],forces.index))我希望创建一个新的曲线下区域的DataFrame而不是dic

DataFrame python code forces numpy pandas vectorization numerical-integration

python - 类型注释 Pandas DataFrame

如果函数或方法返回PandasDataFrame，您如何记录列名和列类型？有没有办法在Python的内置类型注释中执行此操作，还是您只使用文档字符串？如果您只使用文档字符串，您如何格式化它们以尽可能简洁？最佳答案文档字符串格式我使用numpydocstring公约作为基础。如果函数的输入参数或返回参数是具有预定列的pandas数据框，那么我将添加一个reStructuredText样式table带有参数描述的列描述。例如:defrandom_dataframe(no_rows):"""Returndataframewithran

DataFrame python section noreferrer rand pandas

python - sql select group by a having count(1) > 1 equivalent in python pandas?

我很难过滤pandas中的groupby项。我想做selectemail,count(1)ascntfromcustomersgroupbyemailhavingcount(email)>1orderbycntdesc我做到了customers.groupby('Email')['CustomerID'].size()它正确地给出了电子邮件列表及其各自的计数，但我无法实现havingcount(email)>1部分。email_cnt[email_cnt.size>1]返回1email_cnt=customers.groupby('Email')email_dup=email_cnt.

python equivalent code email email_cnt sql pandas dataframe

python - 没有日期时间索引的 pandas dataframe 每天重新采样

我在以下形式的pandas中有一个数据框:timestampslight72004-02-2800:58:45150.88262004-02-2800:59:45143.52342004-02-2801:00:45150.88422004-02-2801:01:15150.88592004-02-2801:02:15150.88这里注意索引不是timestamps列。但我想重新采样(或以某种方式对数据进行分类)以反射(reflect)每分钟、每小时、每天等光柱的平均值。我研究了pandas提供的resample方法，它需要数据帧具有该方法工作的数据时间索引(除非我误解了这一点)。所以我

dataframe python section code 2004 pandas time-series

python - 遍历数据框并选择空值

我正在尝试遍历一个数据框，该数据框的列=[myCol]具有空值。我能够很好地遍历数据框，但是当我指定我只想查看空值时，我得到了一个错误。最终目标是我想将一个值强加到Null字段中，这就是为什么我要迭代以确定哪些是第一个。forindex,rowindf.iterrows():if(row['myCol'].isnull()):print('true')AttributeError:'str'objecthasnoattribute'isnull'我尝试指定列='None'，因为这是我在打印数据帧的迭代时看到的值。仍然没有运气:forindex,rowindf.iterrows():if

python 遍历 code section 39 dataframe null

23 24 252627 28 29