草庐IT

dataframe

全部标签

python - 为什么groupby这么快?

这是对thisone的后续问题,其中jezrael使用pandas.DataFrame.groupby将列表创建速度提高了数百倍。具体来说,设df是一个大的dataframe,那么index=list(set(df.index))list_df=[df.loc(x)forxinindex]和list_df=[xfori,xindf.groupby(level=0,sort=False)]产生相同的结果,后者比前者快200多倍,甚至忽略列表创建步骤。为什么?如果有人能让我理解为什么会有如此巨大的性能差异,我将非常高兴。提前致谢!编辑:正如AlexRiley在他的评论中所建议的,我确认测试

python - 为什么groupby这么快?

这是对thisone的后续问题,其中jezrael使用pandas.DataFrame.groupby将列表创建速度提高了数百倍。具体来说,设df是一个大的dataframe,那么index=list(set(df.index))list_df=[df.loc(x)forxinindex]和list_df=[xfori,xindf.groupby(level=0,sort=False)]产生相同的结果,后者比前者快200多倍,甚至忽略列表创建步骤。为什么?如果有人能让我理解为什么会有如此巨大的性能差异,我将非常高兴。提前致谢!编辑:正如AlexRiley在他的评论中所建议的,我确认测试

python - 在 Pandas Read_CSV 中使用 UseCols 时按指定顺序保留列

我有一个包含50列数据的csv文件。我正在使用Pandasread_csv函数提取这些列的子集,使用usecols参数来选择我想要的列:cols_to_use=[0,1,5,16,8]df_ret=pd.read_csv(filepath,index_col=False,usecols=cols_to_use)问题是df_ret包含正确的列,但不是按照我指定的顺序。它们按升序排列,因此[0,1,5,8,16]。(顺便说一句,列号可以在每次运行时改变,这只是一个例子。)这是一个问题,因为代码的其余部分具有“正确”顺序的数组,我宁愿不必重新排序所有他们中的。是否有任何聪明的pandas方法

python - 在 Pandas Read_CSV 中使用 UseCols 时按指定顺序保留列

我有一个包含50列数据的csv文件。我正在使用Pandasread_csv函数提取这些列的子集,使用usecols参数来选择我想要的列:cols_to_use=[0,1,5,16,8]df_ret=pd.read_csv(filepath,index_col=False,usecols=cols_to_use)问题是df_ret包含正确的列,但不是按照我指定的顺序。它们按升序排列,因此[0,1,5,8,16]。(顺便说一句,列号可以在每次运行时改变,这只是一个例子。)这是一个问题,因为代码的其余部分具有“正确”顺序的数组,我宁愿不必重新排序所有他们中的。是否有任何聪明的pandas方法

python:删除 Pandas 数据框中包含字符串的所有行

我有一个名为data的pandas数据框,我想删除任何列中包含字符串的所有行。例如,下面我们看到“gdp”列在索引3处有一个字符串,在索引1处有一个“cap”。data=ygdpcap0125123ab287233bc746775483...我一直在尝试使用类似于此脚本的东西,因为我无法提前知道exp_list中包含的内容。不幸的是,“data.var_name”抛出了这个错误:“DataFrame”对象没有属性“var_name”。我也不知道提前的字符串是什么,所以无论如何也可以概括它吗?exp_list=['gdp','cap']forvar_nameinexp_list:data

python:删除 Pandas 数据框中包含字符串的所有行

我有一个名为data的pandas数据框,我想删除任何列中包含字符串的所有行。例如,下面我们看到“gdp”列在索引3处有一个字符串,在索引1处有一个“cap”。data=ygdpcap0125123ab287233bc746775483...我一直在尝试使用类似于此脚本的东西,因为我无法提前知道exp_list中包含的内容。不幸的是,“data.var_name”抛出了这个错误:“DataFrame”对象没有属性“var_name”。我也不知道提前的字符串是什么,所以无论如何也可以概括它吗?exp_list=['gdp','cap']forvar_nameinexp_list:data

python - 从深度嵌套的 JSON 创建 Pandas DataFrame

我正在尝试从深度嵌套的JSON字符串创建单个PandasDataFrame对象。JSON模式是:{"intervals":[{pivots:"JaneSmith","series":[{"interval_id":0,"p_value":1},{"interval_id":1,"p_value":1.1162791357932633e-8},{"interval_id":2,"p_value":0.0000028675012051504467}],},{"pivots":"BobSmith","series":[{"interval_id":0,"p_value":1},{"inter

python - 从深度嵌套的 JSON 创建 Pandas DataFrame

我正在尝试从深度嵌套的JSON字符串创建单个PandasDataFrame对象。JSON模式是:{"intervals":[{pivots:"JaneSmith","series":[{"interval_id":0,"p_value":1},{"interval_id":1,"p_value":1.1162791357932633e-8},{"interval_id":2,"p_value":0.0000028675012051504467}],},{"pivots":"BobSmith","series":[{"interval_id":0,"p_value":1},{"inter

python - 在 pandas DataFrame 列中存储多维数组

我希望使用pandas作为主要的Trace(来自MCMC的参数空间中的一系列点)对象。我有一个string->array的字典列表,我想将其存储在pandas中。字典中的键总是相同的,对于每个键,numpy数组的形状总是相同的,但不同键的形状可能不同,并且可能具有不同的维数。我一直在使用self.append(dict_list,ignore_index=True)这似乎适用于1d值,但对于nd>1值pandas将值存储为不允许的对象用于漂亮的绘图和其他漂亮的东西。关于如何获得更好的行为有什么建议吗?示例数据point={'x':array(-0.47652306228698005),

python - 在 pandas DataFrame 列中存储多维数组

我希望使用pandas作为主要的Trace(来自MCMC的参数空间中的一系列点)对象。我有一个string->array的字典列表,我想将其存储在pandas中。字典中的键总是相同的,对于每个键,numpy数组的形状总是相同的,但不同键的形状可能不同,并且可能具有不同的维数。我一直在使用self.append(dict_list,ignore_index=True)这似乎适用于1d值,但对于nd>1值pandas将值存储为不允许的对象用于漂亮的绘图和其他漂亮的东西。关于如何获得更好的行为有什么建议吗?示例数据point={'x':array(-0.47652306228698005),