dataframe

python - Pandas 数据框将 INT64 列转换为 boolean 值

数据帧df中的某些列df.column存储为int64数据类型。取值全为1或0。有没有办法用boolean值替换这些值？最佳答案 df['column_name']=df['column_name'].astype('bool')例如:importpandasaspdimportnumpyasnpdf=pd.DataFrame(np.random.random_integers(0,1,size=5),columns=['foo'])print(df)#foo#00#11#20#31#41df['foo']=df['foo'].a

python - 在 VS Code 中漂亮地打印 pandas 数据框

我想知道是否可以在调试时(第一张图片)在VSCode中显示Pandas数据框，因为它在PyCharm中显示(第二张图片)？感谢您的帮助。df在vscode中打印:df在pycharm中打印: 最佳答案截至January2021release在python扩展中，您现在可以在调试nativepython程序时使用内置数据查看器查看pandas数据帧。当程序在断点处暂停时，右键单击变量列表中的数据框变量并选择“在数据查看器中查看值” 关于python-在VSCode中漂亮地打印pandas

python pandas section code debugging dataframe visual-studio-code

python - 将具有混合数据和类别的 pandas DataFrame 存储到 hdf5 中

我想将具有不同列的数据帧存储到一个hdf5文件中(在下面找到数据类型的摘录)。In[1]:mydfOut[1]:endTimeuint32distancefloat16signaturecategoryanchorNamecategorystationListobject在转换某些列(上面摘录中的signature和anchorName)之前，我使用了如下代码来存储它(效果很好):path='tmp4.hdf5'key='journeys'mydf.to_hdf(path,key,mode='w',complevel=9,complib='bzip2')但它不适用于类别，然后我尝试了以

DataFrame python 39 stationList code pandas

python - Pandas DataFrame.unstack() 更改行和列标题的顺序

我遇到了以下对行和列标题进行排序的问题。这里是重现这个的方法:X=pd.DataFrame(dict(x=np.random.normal(size=100),y=np.random.normal(size=100)))A=pd.qcut(X['x'],[0,0.25,0.5,0.75,1.0])#createafactorB=pd.qcut(X['y'],[0,0.25,0.5,0.75,1.0])#createanotherfactorg=X.groupby([A,B])['x'].mean()#doatwo-waybucketingprintg#thisgivesthefollo

DataFrame unstack code 0.0321 0.724 python pandas

python - 沿着时间序列索引连接 pandas DataFrame

我有两个较大的(提供了片段)pandasDateFrame，它们具有不相等的日期作为索引，我希望将它们合并为一个:NAB.AXCBA.AXCloseVolumeCloseVolumeDateDate2009-06-0536.5149629002009-06-0821.9502009-06-0436.7955288002009-06-0521.9589170002009-06-0336.8051165002009-06-0422.21187236002009-06-0236.3353037002009-06-0323.11116438002009-06-0136.165625500200

沿着 DataFrame 2009 NaN 39 python numpy scipy pandas yahoo-finance

python - 识别 pandas DataFrame 的列中连续出现的值

我有一个像这样的df:Count1011001110如果Count中1和连续出现两次或多次，我想在新列中返回1code>0如果没有。因此，在新列中，根据列Count中满足的条件，每一行都将获得1。我想要的输出将是:CountNew_Value10001111000011111100我在想我可能需要使用itertools但我一直在阅读它，但还没有找到我需要的东西。我希望能够使用此方法来计算任意数量的连续出现次数，而不仅仅是2次。例如，有时我需要计算连续出现的10次，我在这里的示例中只使用2。最佳答案你可以:df['consecut

DataFrame python code Count pre pandas

python - dask 分布式数据帧上的慢 len 函数

我一直在测试如何使用dask(具有20个内核的集群)，我对调用len函数与通过loc切片的速度相比感到惊讶。importdask.dataframeasddfromdask.distributedimportClientclient=Client('192.168.1.220:8786')log=pd.read_csv('800000test',sep='\t')logd=dd.from_pandas(log,npartitions=20)#Thisisthecodethanrunsslowly#(2.9secondswhilstIwouldexpectnomorethanafewhu

python dask code pre client performance dataframe

python - 有效地将数据从 CSV 读取到具有多个分隔符的数据框中

我有一个笨拙的CSV文件，它有多个分隔符:非数字部分的分隔符是','，数字部分的分隔符是';'。我想尽可能高效地仅从数字部分构建数据框。我做了5次尝试:其中，利用pd.read_csv的converters参数，使用正则表达式和engine='python'，使用str.replace。它们都比读取没有转换的整个CSV文件慢2倍以上。这对我的用例来说太慢了。我知道这种比较不是对等的，但它确实表明整体性能不佳不是由I/O驱动的。有没有更有效的方法将数据读入数字Pandas数据框？或者等效的NumPy数组？以下字符串可用于基准测试目的。#Python3.7.0,Pandas0.23.4fr

python CSV csv_reader code reader pandas performance dataframe

python - 如何合并大多数重复的行

我的一些数据看起来像:date,name,value1,value2,value3,value41/1/2001,ABC,1,1,,1/1/2001,ABC,,,2,1/1/2001,ABC,,,,35我正在努力达到我可以运行的程度data.set_index(['date','name'])但是，对于原样的数据，当然有重复项(如上所示)，所以我不能这样做(而且我不想要一个包含重复项的索引，我不能简单地删除重复项(),因为这会丢失数据)。我希望能够将具有相同[date,name]值的行强制合并为一行，前提是它们可以基于某些值为NaN的值成功收敛(类似于combine_first()的行

python 如何 code section value duplicates pandas dataframe

python - 如何将层次结构或多索引应用于 Pandas 列

我看过很多关于如何分层排列数据帧行索引的示例，但我正在尝试对列做同样的事情，但我不理解语法:给定:df=pd.DataFrame(np.random.randn(10,10),columns=['consumption','voltage','consumption','voltage','temperature','humidity','consumption','voltage','temperature','humidity'],index=pd.date_range('20000103',periods=10))>>>dfconsumptionvoltageconsumptio

多索 python 2000 01 code pandas dataframe

51 52 535455 56 57