草庐IT

dataframe

全部标签

python - 将压缩文件读取为 pandas DataFrame

我正在尝试解压缩一个csv文件并将其传递给pandas,以便我可以处理该文件。到目前为止我尝试过的代码是:importrequests,zipfile,StringIOr=requests.get('http://data.octo.dc.gov/feeds/crime_incidents/archive/crime_incidents_2013_CSV.zip')z=zipfile.ZipFile(StringIO.StringIO(r.content))crime2013=pandas.read_csv(z.read('crime_incidents_2013_CSV.csv'))

python - 将压缩文件读取为 pandas DataFrame

我正在尝试解压缩一个csv文件并将其传递给pandas,以便我可以处理该文件。到目前为止我尝试过的代码是:importrequests,zipfile,StringIOr=requests.get('http://data.octo.dc.gov/feeds/crime_incidents/archive/crime_incidents_2013_CSV.zip')z=zipfile.ZipFile(StringIO.StringIO(r.content))crime2013=pandas.read_csv(z.read('crime_incidents_2013_CSV.csv'))

python - Pandas Dataframe/Numpy 数组 "axis"定义中的歧义

我一直很困惑python轴是如何定义的,以及它们是指DataFrame的行还是列。考虑下面的代码:>>>df=pd.DataFrame([[1,1,1,1],[2,2,2,2],[3,3,3,3]],columns=["col1","col2","col3","col4"])>>>dfcol1col2col3col4011111222223333因此,如果我们调用df.mean(axis=1),我们将得到各行的平均值:>>>df.mean(axis=1)011223但是,如果我们调用df.drop(name,axis=1),我们实际上是删除一列,而不是一行:>>>df.drop("co

python - Pandas Dataframe/Numpy 数组 "axis"定义中的歧义

我一直很困惑python轴是如何定义的,以及它们是指DataFrame的行还是列。考虑下面的代码:>>>df=pd.DataFrame([[1,1,1,1],[2,2,2,2],[3,3,3,3]],columns=["col1","col2","col3","col4"])>>>dfcol1col2col3col4011111222223333因此,如果我们调用df.mean(axis=1),我们将得到各行的平均值:>>>df.mean(axis=1)011223但是,如果我们调用df.drop(name,axis=1),我们实际上是删除一列,而不是一行:>>>df.drop("co

python - 使用 Pandas 查找列的最大值并返回相应的行值

使用PythonPandas我试图找到具有最大值的Country和Place。这会返回最大值:data.groupby(['Country','Place'])['Value'].max()但是如何获取对应的Country和Place名称呢? 最佳答案 假设df有一个唯一索引,这将给出具有最大值的行:In[34]:df.loc[df['Value'].idxmax()]Out[34]:CountryUSPlaceKansasValue894Name:7请注意idxmax返回索引标签。所以如果DataFrame在索引中有重复,标签可能

python - 使用 Pandas 查找列的最大值并返回相应的行值

使用PythonPandas我试图找到具有最大值的Country和Place。这会返回最大值:data.groupby(['Country','Place'])['Value'].max()但是如何获取对应的Country和Place名称呢? 最佳答案 假设df有一个唯一索引,这将给出具有最大值的行:In[34]:df.loc[df['Value'].idxmax()]Out[34]:CountryUSPlaceKansasValue894Name:7请注意idxmax返回索引标签。所以如果DataFrame在索引中有重复,标签可能

python - 重新定义 Pandas DataFrame 对象中的索引

我正在尝试重新索引pandasDataFrame对象,就像这样,From:abc012311011122202122To:bc123101112202122我将按照如下所示进行此操作,但我得到了错误的答案。有关如何执行此操作的任何线索?>>>col=['a','b','c']>>>data=DataFrame([[1,2,3],[10,11,12],[20,21,22]],columns=col)>>>dataabc012311011122202122>>>idx2=data.a.values>>>idx2array([1,10,20],dtype=int64)>>>data2=Dat

python - 重新定义 Pandas DataFrame 对象中的索引

我正在尝试重新索引pandasDataFrame对象,就像这样,From:abc012311011122202122To:bc123101112202122我将按照如下所示进行此操作,但我得到了错误的答案。有关如何执行此操作的任何线索?>>>col=['a','b','c']>>>data=DataFrame([[1,2,3],[10,11,12],[20,21,22]],columns=col)>>>dataabc012311011122202122>>>idx2=data.a.values>>>idx2array([1,10,20],dtype=int64)>>>data2=Dat

python - DataFrame 中的字符串,但 dtype 是对象

为什么Pandas告诉我我有对象,尽管所选列中的每个项目都是一个字符串——即使在显式转换之后也是如此。这是我的数据框:Int64Index:56992entries,0to56991Datacolumns(total7columns):id56992non-nullvaluesattr156992non-nullvaluesattr256992non-nullvaluesattr356992non-nullvaluesattr456992non-nullvaluesattr556992non-nullvaluesattr656992non-nullvaluesdtypes:int64(

python - DataFrame 中的字符串,但 dtype 是对象

为什么Pandas告诉我我有对象,尽管所选列中的每个项目都是一个字符串——即使在显式转换之后也是如此。这是我的数据框:Int64Index:56992entries,0to56991Datacolumns(total7columns):id56992non-nullvaluesattr156992non-nullvaluesattr256992non-nullvaluesattr356992non-nullvaluesattr456992non-nullvaluesattr556992non-nullvaluesattr656992non-nullvaluesdtypes:int64(