Dataframe

python - 识别 pandas DataFrame 的列中连续出现的值

我有一个像这样的df:Count1011001110如果Count中1和连续出现两次或多次，我想在新列中返回1code>0如果没有。因此，在新列中，根据列Count中满足的条件，每一行都将获得1。我想要的输出将是:CountNew_Value10001111000011111100我在想我可能需要使用itertools但我一直在阅读它，但还没有找到我需要的东西。我希望能够使用此方法来计算任意数量的连续出现次数，而不仅仅是2次。例如，有时我需要计算连续出现的10次，我在这里的示例中只使用2。最佳答案你可以:df['consecut

python - dask 分布式数据帧上的慢 len 函数

我一直在测试如何使用dask(具有20个内核的集群)，我对调用len函数与通过loc切片的速度相比感到惊讶。importdask.dataframeasddfromdask.distributedimportClientclient=Client('192.168.1.220:8786')log=pd.read_csv('800000test',sep='\t')logd=dd.from_pandas(log,npartitions=20)#Thisisthecodethanrunsslowly#(2.9secondswhilstIwouldexpectnomorethanafewhu

python dask code pre client performance dataframe

python - 有效地将数据从 CSV 读取到具有多个分隔符的数据框中

我有一个笨拙的CSV文件，它有多个分隔符:非数字部分的分隔符是','，数字部分的分隔符是';'。我想尽可能高效地仅从数字部分构建数据框。我做了5次尝试:其中，利用pd.read_csv的converters参数，使用正则表达式和engine='python'，使用str.replace。它们都比读取没有转换的整个CSV文件慢2倍以上。这对我的用例来说太慢了。我知道这种比较不是对等的，但它确实表明整体性能不佳不是由I/O驱动的。有没有更有效的方法将数据读入数字Pandas数据框？或者等效的NumPy数组？以下字符串可用于基准测试目的。#Python3.7.0,Pandas0.23.4fr

python CSV csv_reader code reader pandas performance dataframe

python - 如何合并大多数重复的行

我的一些数据看起来像:date,name,value1,value2,value3,value41/1/2001,ABC,1,1,,1/1/2001,ABC,,,2,1/1/2001,ABC,,,,35我正在努力达到我可以运行的程度data.set_index(['date','name'])但是，对于原样的数据，当然有重复项(如上所示)，所以我不能这样做(而且我不想要一个包含重复项的索引，我不能简单地删除重复项(),因为这会丢失数据)。我希望能够将具有相同[date,name]值的行强制合并为一行，前提是它们可以基于某些值为NaN的值成功收敛(类似于combine_first()的行

python 如何 code section value duplicates pandas dataframe

python - 如何将层次结构或多索引应用于 Pandas 列

我看过很多关于如何分层排列数据帧行索引的示例，但我正在尝试对列做同样的事情，但我不理解语法:给定:df=pd.DataFrame(np.random.randn(10,10),columns=['consumption','voltage','consumption','voltage','temperature','humidity','consumption','voltage','temperature','humidity'],index=pd.date_range('20000103',periods=10))>>>dfconsumptionvoltageconsumptio

多索 python 2000 01 code pandas dataframe

python - 向 MultiIndex DataFrame/Series 添加一行

我想知道是否有一种等效的方法可以将行添加到带有MultiIndex的Series或DataFrame中，就像使用单个索引一样，即使用.ix或.loc？我认为自然的方式应该是这样的row_to_add=pd.MultiIndex.from_tuples()df.ix[row_to_add]=my_row但这会引发KeyError。我知道我可以使用.append()，但我会发现使用.ix[]或.loc[]更简洁。举个例子:>>>df=pd.DataFrame({'Time':[dt.datetime(2013,2,3,9,0,1),dt.datetime(2013,2,3,9,0,1)],

MultiIndex DataFrame section 39 2013 python pandas indexing

python - Pandas ，将多列的多个功能应用于groupby对象

我想将多列的多个函数应用到一个groupby对象，从而产生一个新的pandas.DataFrame。我知道如何分步完成:by_user=lasts.groupby('user')elapsed_days=by_user.apply(lambdax:(x.elapsed_time*x.num_cores).sum()/86400)running_days=by_user.apply(lambdax:(x.running_time*x.num_cores).sum()/86400)user_df=elapsed_days.to_frame('elapsed_days').join(runn

多列 groupby code section elapsed python pandas dataframe group-by

python - 使用时间戳列表选择由 DatetimeIndex 索引的 Pandas DataFrame 的子集

我有一只PandasDataFrameDatetimeIndex:3425100entries,2011-12-0100:00:00to2011-12-3123:59:59Datacolumns:sig_qual3425100non-nullvaluesheave3425100non-nullvaluesnorth3425099non-nullvalueswest3425097non-nullvaluesdtypes:float64(4)我选择了DataFrame的一个子集使用.ix[start_datetime:end_datetime]然后我将其传递给peakdetectfunct

DatetimeIndex DataFrame code 2011 python time-series pandas

Python Pandas，将 DataFrame 写入固定宽度文件(to_fwf？)

我看到Pandas有read_fwf，但它有类似DataFrame.to_fwf的东西吗？我正在寻找对字段宽度、数值精度和字符串对齐的支持。DataFrame.to_csv似乎没有这样做。numpy.savetxt可以，但我不想这样做:numpy.savetxt('myfile.txt',mydataframe.to_records(),fmt='someformat')这似乎是错误的。非常感谢您的想法。最佳答案直到有人implements这在Pandas中，你可以使用tabulate包裹:importpandasaspdfro

DataFrame Python code section tabulate pandas fixed-width

python - 如何更改 Pandas 数据框中的特定行标签？

我有一个数据框，例如:012345041.022.09.04.02.01.016.01.02.01.01.01.024.02.04.01.00.01.031.02.01.01.01.01.045.01.00.01.00.01.0511.45.63.21.60.81.0最后一行包含平均值。我想将最后一行标签重命名为"A"以便数据框看起来像这样:012345041.022.09.04.02.01.016.01.02.01.01.01.024.02.04.01.00.01.031.02.01.01.01.01.045.01.00.01.00.01.0A11.45.63.21.60.81.0我

python Pandas 1.0 code section python-3.x dataframe label

51 52 535455 56 57