Dataframe

python - 从一个表中提取小时值并在另一个表中填充一小时增量的 "buckets"的函数

我有以下格式的数据供人们输入工作时间:(dat我想用R或Python编写一个函数，将每个人的工作总小时数提取到24个不同的桶中，每个桶作为其自己的列。它看起来像这样:所以在第一种情况下，这个人从下午1:15工作到下午2:30，所以他们从下午1点到下午2点(13-14日)工作了.75小时，从下午2点到下午3点(14-15日)工作了.5小时).我认为可能有用的一些东西是......一系列嵌套循环一长串if/then语句我还没有想到的Tidyverse或Pandas中的一些功能。上面#1和#2(？)的尝试完全失败了。不确定工作流程是什么，但非常感谢任何建议。请注意，结果表中的列不必是数字(可

时值一小 34 dat time python r pandas dataframe

python - 计算 DataFrame 每一行中 Series 中项目的出现次数

我有一个看起来像这样的pandas.DataFrame。COL1COL2COL3C1NoneNoneC1C2NoneC1C1NoneC1C2C3对于此数据框中的每一行，我想计算每个C1、C2、C3的出现次数，并将此信息作为列附加到此数据框中。例如，第一行有1个C1、0个C2和0个C3。最终的数据框应该是这样的COL1COL2COL3C1C2C3C1NoneNone100C1C2None110C1C1None200C1C2C3111因此，我创建了一个以C1、C2和C3作为值的系列-topcount的一种方法是遍历DataFrame的行和列，然后遍历该系列并在匹配时递增计数器。但是是否有一

DataFrame python code section None pandas apply

python - Pandas :获取数据帧中对角线下方的元素(索引，列)

我有一个pandasDataFrame，df。我想提取df中所有(col,index)的列表，其中(col,index)>.95的值。此外，我想以它们位于df的下对角线这一事实为条件，不包括对角线本身。(如果有帮助的话，它是相关df，所以对角线是1，这不是我感兴趣的。)我该怎么做？最佳答案 In[71]:df=DataFrame(np.arange(25).reshape(5,5))In[72]:dfOut[72]:01234001234156789210111213143151617181942021222324这掩盖了上三角(

python Pandas False True NaN dataframe correlation

python - 从 {index : list of row values} 形式的字典构造 Pandas DataFrame

我已经设法使用:dft=pd.DataFrame.from_dict({0:[50,45,00,00],1:[53,48,00,00],2:[56,53,00,00],3:[54,49,00,00],4:[53,48,00,00],5:[50,45,00,00]},orient='index')这样做，构造函数看起来就像DataFrame一样，易于阅读/编辑:>>>dft0123050450015348002565300354490045348005504500但是DataFrame.from_dictconstructor没有列参数，因此为列提供合理的名称需要一个额外的步骤:dft.

DataFrame python code section list pandas dictionary

python - 如何从 pandas.DataFrame.info() 返回一个字符串

我想显示pandas.DataFrame.info()的输出在tkinter文本小部件上，所以我需要一个字符串。但是pandas.DataFrame.info()返回NoneType无论如何我可以改变这个吗？importpandasaspdimportnumpyasnpdata=np.random.rand(10).reshape(5,2)cols='a','b'df=pd.DataFrame(data,columns=cols)df_info=df.info()print(df_info)type(df_info)我想做这样的事情:info_str=""df_info=df.info

DataFrame python code info pandas

python - Pandas - 按行交错/压缩两个数据帧

假设我有两个数据框:>>df10120abc1def>>df20120ABC1DEF我怎样才能交错行？即得到这个:>>interleaved_df0120abc1ABC2def3DEF(请注意，我的真实DF具有相同的列，但行数不同)。我尝试过的灵感来自thisquestion(非常相似，但询问列):importpandasaspdfromitertoolsimportchain,zip_longestdf1=pd.DataFrame([['a','b','c'],['d','e','f']])df2=pd.DataFrame([['A','B','C'],['D','E','F']])

交错 python 39 index df pandas dataframe

python - 从一个函数在 Pandas Dataframe 中创建多列

我是一个Python新手，所以我希望我的两个问题是清楚和完整的。我在下面以csv格式发布了实际代码和测试数据集。我已经能够构建以下代码(主要是在StackOverflow贡献者的帮助下)来使用Newton-Raphson方法计算期权合约的隐含波动率。该过程在确定隐含波动率时计算Vega。虽然我可以使用PandasDataFrameapply方法为隐含波动率创建一个新的DataFrame列，但我无法为Vega创建第二个列。当函数同时返回IV和Vega时，有没有办法创建两个单独的DataFrame列？我试过:从函数返回iv,vegadf[['myIV','Vega']]=df.apply(

中创多列 39 code 00 python pandas multiple-columns jit numba

python - 在 Pandas DataFrame 的字符串中漂亮地打印换行符

我有一个PandasDataFrame，其中一列包含字符串元素，这些字符串元素包含我想按字面打印的新行。但它们只是在输出中显示为\n。也就是说，我要打印这个:posbidder011223但这就是我得到的:posbidder011223我怎样才能完成我想要的？我可以使用DataFrame，还是必须恢复为一次一行手动打印填充列？这是我目前所拥有的:n=4output=pd.DataFrame({'pos':range(1,n+1),'bidder':['']*n})bids={'alice':3,'bob':3}used_pos=[]forbidder,posinbids.items()

换行符 DataFrame bidder section code python string python-3.x pandas printing

python - 有包含列表的 Pandas 列，如何将唯一的列表元素转换为列？

我编写了一个网络抓取工具来从产品表中提取信息并构建数据框。数据表有一个描述列，其中包含描述产品的逗号分隔的属性字符串。我想在数据框中为每个唯一属性创建一个列，并用该属性的子字符串填充该列中的行。下面的示例df。PRODUCTSDATEDESCRIPTIONProductA2016-9-12Steel,Red,HighHardnessProductB2016-9-11Blue,Lightweight,SteelProductC2016-9-12Red我认为第一步是将描述分成一个列表。In:df2=df['DESCRIPTION'].str.split(',')Out:DESCRIPTIO

python Pandas 39 Product 2016 numpy dataframe pivot

python - 连接后如何在 Pyspark Dataframe 中选择和排序多个列

我想从现有数据框(在连接后创建)中选择多个列，并希望将这些字段排序为我的目标表结构。怎么做到呢？我使用的方法如下。在这里我可以选择需要但不能按顺序制作的必要列。Required(TargetTablestructure):hist_columns=("acct_nbr","account_sk_id","zip_code","primary_state","eff_start_date","eff_end_date","eff_flag")account_sk_df=hist_process_df.join(broadcast(df_sk_lkp),'acct_nbr','inner'

中选何在 account string section python apache-spark pyspark apache-spark-sql

45 46 474849 50 51