Dataframe_草庐IT

python - Pandas:从保留其顺序的 2D numpy 数组创建数据框

假设您有3个numpy数组:lat、lon、val:importnumpyasnplat=np.array([[10,20,30],[20,11,33],[21,20,10]])lon=np.array([[100,102,103],[105,101,102],[100,102,103]])val=np.array([[17,2,11],[86,84,1],[9,5,10]])假设您想创建一个pandas数据框，其中df.columns=['lat','lon','val']，但由于每个值inlat与long和val数量相关联，您希望它们出现在同一行中。此外，您希望每列的行顺序遵循每个

python - 在 pandas DataFrame 中取消嵌套(分解)多个列表列的有效方法

我正在将多个JSON对象读取到一个DataFrame中。问题是有些列是列表。此外，数据非常大，因此我无法使用互联网上可用的解决方案。它们非常慢且内存效率低下这是我的数据的样子:df=pd.DataFrame({'A':['x1','x2','x3','x4'],'B':[['v1','v2'],['v3','v4'],['v5','v6'],['v7','v8']],'C':[['c1','c2'],['c3','c4'],['c5','c6'],['c7','c8']],'D':[['d1','d2'],['d3','d4'],['d5','d6'],['d7','d8']],'E'

DataFrame python 39 strong section json pandas pandas-explode

python - 从 Pandas 数据框中的日期时间中删除时间戳

场景:我有一个数据框，其中包含从Excel工作表中检索到的多列。其中一些列是日期:一些只有日期(yyyy:mm:dd)，一些有日期和时间戳(yyyy:mm:dd00.00.000000)。问题:当日期不是我的数据帧的索引时，如何从日期中删除时间戳？我已经尝试过的:从SO中的其他帖子(workingwithdatesinpandas-removeunseencharactersindatetimeandconverttostring和Howtostripapandasdatetimeofdate,hoursandseconds)我发现:pd.DatetimeIndex(dfST['tim

python Pandas code section strong datetime dataframe

python - 按多列分组以查找重复行 Pandas

我有一个dfidval1val211.12.211.12.222.15.538.86.241.12.258.86.2我想按val1和val2进行分组，并仅使用多次出现相同val1和val2组合的行获得相似的数据帧。最终df:idval1val211.12.241.12.238.86.258.86.2 最佳答案你需要duplicated使用参数subset指定要检查的列，使用keep=False对掩码的所有重复项进行检查，并按booleanindexing过滤:df=df[df.duplicated(subset=['val1','

多列 python code section val pandas dataframe

python - 如何根据日期时间索引对 Pandas Dataframe 进行切片

这个问题困扰我很久了:给定一个简单的pandasDataFrame>>>dfTimestampCol12008-08-010.0013732008-09-010.0401922008-10-010.0277942008-11-010.0125902008-12-010.0263942009-01-010.0085642009-02-010.0077142009-03-01-0.0197272009-04-010.0088882009-05-010.0398012009-06-010.0100422009-07-010.0209712009-08-010.0119262009-09-01

Dataframe python 01 2009 2010 pandas slice

python - 与 Numpy 不同，Pandas 似乎不喜欢内存步幅

Pandas似乎缺少R风格的矩阵级滚动窗口函数(rollapply(...,by.column=FALSE))，仅提供基于向量的版本。因此我试着关注thisquestion它与可以复制的示例配合得很好，但它不适用于pandasDataFrame，即使在使用(看似相同的)底层Numpy数组时也是如此。人为问题复制:importnumpyasnpimportpandasaspdfromnumpy.lib.stride_tricksimportas_stridedtest=[[x*yforxinrange(1,10)]foryin[10**zforzinrange(5)]]mm=np.arr

步幅 python code shape section arrays pandas numpy dataframe

python - 在 Python 中对某些 Dataframe 列进行输入

我正在学习如何在Python上使用Imputer。这是我的代码:df=pd.DataFrame([["XXL",8,"black","class1",22],["L",np.nan,"gray","class2",20],["XL",10,"blue","class2",19],["M",np.nan,"orange","class1",17],["M",11,"green","class3",np.nan],["M",7,"red","class1",22]])df.columns=["size","price","color","class","boh"]fromsklearn.p

Dataframe python 34 section price scikit-learn missing-data imputation

python - 在 Pandas 数据框中将字符串 2.90K 转换为 2900 或将 5.2M 转换为 5200000

在处理pandas数据框内的数据方面需要一些帮助。欢迎任何帮助。我有CSV格式的OHCLV数据。我已将文件加载到Pandas数据框中。如何将体积列从2.90K转换为2900或将5.2M转换为5200000。该列可以包含以千为单位的K和以百万为单位的M。importpandasaspdfile_path='/home/fatjoe/UCHM.csv'df=pd.read_csv(file_path,parse_dates=[0],index_col=0)df.columns=["closing_price","opening_price","high_price","low_price"

5200000 python 39 section price pandas dataframe

python - 使用 Pandas 读取带有多个标题的 Excel 工作表

我有一个包含多个标题的Excel工作表，例如:_____________________________________________________________________________|_____|Header1|Header2|Header3|ColX|ColY|ColA|ColB|ColC|ColD||ColD|ColE|ColF|ColG||ColH|ColI|ColJ|ColDK|1|ds|5|6|9|10|.......................................2|dh|..................................

python Pandas code Header excel dataframe

python - Pandas Dataframes 到 MultiIndex Dataframe 的字典

我有一个PandasDataframes的字典，比如说d={A:pd.DataFrame([[0,1,2],[2,2,4]),B:pd.DataFrame([[1,1,1],[2,2,2]}我想将其更改为这样的MultiIndexDataFrame:A00,1,212,2,4B01,1,112,2,2 最佳答案使用pd.concat在字典值上，将keys参数设置为字典键:df=pd.concat(d.values(),keys=d.keys())结果输出:012A00121224B01111222

Dataframes MultiIndex code section pre python pandas