草庐IT

sample_dataframe

全部标签

python - 将 HTML 表放入 pandas Dataframe,而不是 dataframe 对象列表

如果此问题已在其他地方得到回答,我深表歉意,但我未能在这里或其他地方找到满意的答案。我对python和pandas比较陌生,在将HTML数据导入pandas数据框时遇到了一些困难。在pandas文档中它说.read_html()返回一个数据框对象列表,所以当我尝试进行一些数据操作以摆脱一些样本时,我得到了一个错误。这是我读取HTML的代码:df=pd.read_html('http://espn.go.com/nhl/statistics/player/_/stat/points/sort/points/year/2015/seasontype/2',header=1)然后我尝试清理它

python - 在 pandas DataFrame 中取消嵌套(分解)多个列表列的有效方法

我正在将多个JSON对象读取到一个DataFrame中。问题是有些列是列表。此外,数据非常大,因此我无法使用互联网上可用的解决方案。它们非常慢且内存效率低下这是我的数据的样子:df=pd.DataFrame({'A':['x1','x2','x3','x4'],'B':[['v1','v2'],['v3','v4'],['v5','v6'],['v7','v8']],'C':[['c1','c2'],['c3','c4'],['c5','c6'],['c7','c8']],'D':[['d1','d2'],['d3','d4'],['d5','d6'],['d7','d8']],'E'

python - 如何根据日期时间索引对 Pandas Dataframe 进行切片

这个问题困扰我很久了:给定一个简单的pandasDataFrame>>>dfTimestampCol12008-08-010.0013732008-09-010.0401922008-10-010.0277942008-11-010.0125902008-12-010.0263942009-01-010.0085642009-02-010.0077142009-03-01-0.0197272009-04-010.0088882009-05-010.0398012009-06-010.0100422009-07-010.0209712009-08-010.0119262009-09-01

python - 在 Python 中对某些 Dataframe 列进行输入

我正在学习如何在Python上使用Imputer。这是我的代码:df=pd.DataFrame([["XXL",8,"black","class1",22],["L",np.nan,"gray","class2",20],["XL",10,"blue","class2",19],["M",np.nan,"orange","class1",17],["M",11,"green","class3",np.nan],["M",7,"red","class1",22]])df.columns=["size","price","color","class","boh"]fromsklearn.p

python - Pandas Dataframes 到 MultiIndex Dataframe 的字典

我有一个PandasDataframes的字典,比如说d={A:pd.DataFrame([[0,1,2],[2,2,4]),B:pd.DataFrame([[1,1,1],[2,2,2]}我想将其更改为这样的MultiIndexDataFrame:A00,1,212,2,4B01,1,112,2,2 最佳答案 使用pd.concat在字典值上,将keys参数设置为字典键:df=pd.concat(d.values(),keys=d.keys())结果输出:012A00121224B01111222

python - 如何保存用 'pandas.DataFrame.plot' 创建的图像?

这个问题在这里已经有了答案:Savingplots(AxesSubPlot)generatedfrompythonpandaswithmatplotlib'ssavefig(6个答案)saveapandas.Serieshistogramplottofile(4个答案)关闭2年前。当尝试从“pandas.core.series.Series”对象保存使用“pandas.DataFrame.plot”创建的绘图图像时:%matplotlibinlinetype(class_counts)#pandas.core.series.Seriesclass_counts.plot(kind='b

python - 如何使用名称列表更改 pandas Dataframe 中的列名称?

我一直在尝试使用名称列表更改pandas数据框的列名称。正在使用以下代码:df.rename(columns=list_of_names,inplace=True)但是我每次都遇到类型错误,错误消息是“listobjectisnotcallable”。我想知道为什么会这样?我该怎么做才能解决这个问题?感谢您的帮助。 最佳答案 你可以用df.columns=['Leader','Time','Score'] 关于python-如何使用名称列表更改pandasDataframe中的列名称?,

python - 将 statsmodels 摘要对象转换为 Pandas Dataframe

我正在Windows10上使用statsmodels.formula.api(ver0.9.0)进行多元线性回归。拟合模型并使用以下行获取摘要后,我得到摘要对象格式的摘要.X_opt=X[:,[0,1,2,3]]regressor_OLS=sm.OLS(endog=y,exog=X_opt).fit()regressor_OLS.summary()OLSRegressionResults==============================================================================Dep.Variable:yR-squared

python - pandas dataframe group year index by decade

假设我有一个索引为每月时间步长的数据框,我知道我可以使用dataframe.groupby(lambdax:x.year)将每月数据分组为每年并应用其他操作。有什么方法可以快速对它们进行分组,比方说按十年分组?感谢任何提示。 最佳答案 要得到十年,您可以将年份除以10,然后乘以10。例如,如果您从>>>dates=pd.date_range('1/1/2001',periods=500,freq="M")>>>df=pd.DataFrame({"A":5*np.arange(len(dates))+2},index=dates)>>

python - 删除 pandas dataframe 列中包含 False 的行

我认为这是一个简单的修复,我不确定我遗漏了什么。我有一个这样的数据框:indexc1c2c32015-03-0701:27:05FalseFalseTrue2015-03-0701:27:10FalseFalseTrue2015-03-0701:27:15FalseFalseFalse2015-03-0701:27:20FalseFalseTrue2015-03-0701:27:25FalseFalseFalse2015-03-0701:27:30FalseFalseTrue我想删除c3中所有包含False的行。c3是一个dtype=bool。我一直遇到问题,因为它是boolean值而