Pandas-Datareader

python - 有条件地创建 Pandas 列的最快方法

在PandasDataFrame中，我想根据另一列的值有条件地创建一个新列。在我的应用程序中，DataFrame通常有几百万行，并且唯一条件值的数量很少，按统一顺序排列。性能极其重要:生成新列的最快方法是什么？我在下面创建了一个示例案例，并且已经尝试并比较了不同的方法。在示例中，条件填充表示为基于列值的字典查找label(此处:1,2,3之一)。lookup_dict={1:100,#arbitrary2:200,#arbitrary3:300,#arbitrary}然后我希望我的DataFrame被填充为:labeloutput0330012200233003330042200522

最快 python code 39 method performance pandas numpy cython

python - 有条件地创建 Pandas 列的最快方法

在PandasDataFrame中，我想根据另一列的值有条件地创建一个新列。在我的应用程序中，DataFrame通常有几百万行，并且唯一条件值的数量很少，按统一顺序排列。性能极其重要:生成新列的最快方法是什么？我在下面创建了一个示例案例，并且已经尝试并比较了不同的方法。在示例中，条件填充表示为基于列值的字典查找label(此处:1,2,3之一)。lookup_dict={1:100,#arbitrary2:200,#arbitrary3:300,#arbitrary}然后我希望我的DataFrame被填充为:labeloutput0330012200233003330042200522

最快 python code 39 method performance pandas numpy cython

python - pandas.unique() 的奇怪内存消耗

在分析我的算法的内存消耗时，我很惊讶有时对于较小的输入需要更多的内存。这一切都归结为pandas.unique()的以下用法:importnumpyasnpimportpandasaspdimportsysN=int(sys.argv[1])a=np.arange(N,dtype=np.int64)b=pd.unique(a)N=6*10^7需要3.7GB峰值内存，但N=8*10^7仅"3GB。扫描不同的输入大小会产生下图:出于好奇和self教育:N=5*10^7周围的违反直觉的行为(即更多内存用于更小的输入大小)是如何产生的，N=1.3*10^7有解释吗？以下是在Linux上生成内存

python pandas code noreferrer algorithm performance

python - pandas.unique() 的奇怪内存消耗

在分析我的算法的内存消耗时，我很惊讶有时对于较小的输入需要更多的内存。这一切都归结为pandas.unique()的以下用法:importnumpyasnpimportpandasaspdimportsysN=int(sys.argv[1])a=np.arange(N,dtype=np.int64)b=pd.unique(a)N=6*10^7需要3.7GB峰值内存，但N=8*10^7仅"3GB。扫描不同的输入大小会产生下图:出于好奇和self教育:N=5*10^7周围的违反直觉的行为(即更多内存用于更小的输入大小)是如何产生的，N=1.3*10^7有解释吗？以下是在Linux上生成内存

python pandas code noreferrer algorithm performance

python - Pandas 扩展/滚动窗口相关性计算与 p 值

假设我有一个DataFrame，我想在其上计算两列之间的滚动或扩展Pearson相关性importnumpyasnpimportpandasaspdimportscipy.statsasstdf=pd.DataFrame({'x':np.random.rand(10000),'y':np.random.rand(10000)})借助内置的pandas功能，计算速度非常快expanding_corr=df['x'].expanding(50).corr(df['y'])rolling_corr=df['x'].rolling(50).corr(df['y'])但是，如果我希望获得与这些相

python Pandas code df corr numpy optimization vectorization

python - Pandas 扩展/滚动窗口相关性计算与 p 值

假设我有一个DataFrame，我想在其上计算两列之间的滚动或扩展Pearson相关性importnumpyasnpimportpandasaspdimportscipy.statsasstdf=pd.DataFrame({'x':np.random.rand(10000),'y':np.random.rand(10000)})借助内置的pandas功能，计算速度非常快expanding_corr=df['x'].expanding(50).corr(df['y'])rolling_corr=df['x'].rolling(50).corr(df['y'])但是，如果我希望获得与这些相

python Pandas code df corr numpy optimization vectorization

python - 在 Pandas Read_CSV 中使用 UseCols 时按指定顺序保留列

我有一个包含50列数据的csv文件。我正在使用Pandasread_csv函数提取这些列的子集，使用usecols参数来选择我想要的列:cols_to_use=[0,1,5,16,8]df_ret=pd.read_csv(filepath,index_col=False,usecols=cols_to_use)问题是df_ret包含正确的列，但不是按照我指定的顺序。它们按升序排列，因此[0,1,5,8,16]。(顺便说一句，列号可以在每次运行时改变，这只是一个例子。)这是一个问题，因为代码的其余部分具有“正确”顺序的数组，我宁愿不必重新排序所有他们中的。是否有任何聪明的pandas方法

Read_CSV UseCols section cols_to_use code python pandas dataframe

python - 在 Pandas Read_CSV 中使用 UseCols 时按指定顺序保留列

我有一个包含50列数据的csv文件。我正在使用Pandasread_csv函数提取这些列的子集，使用usecols参数来选择我想要的列:cols_to_use=[0,1,5,16,8]df_ret=pd.read_csv(filepath,index_col=False,usecols=cols_to_use)问题是df_ret包含正确的列，但不是按照我指定的顺序。它们按升序排列，因此[0,1,5,8,16]。(顺便说一句，列号可以在每次运行时改变，这只是一个例子。)这是一个问题，因为代码的其余部分具有“正确”顺序的数组，我宁愿不必重新排序所有他们中的。是否有任何聪明的pandas方法

Read_CSV UseCols section cols_to_use code python pandas dataframe

python - Pandas 将数据帧与多索引和重叠索引级别相乘

我正在努力完成一项本应很简单的任务，但它并没有像我想象的那样工作。我有两个带有多索引和列的数字数据框A和B:A=ABCDX1AX1BX1CX1DX12AX2BX2CX2DX23AX3BX3CX3DX3Y1AY1BY1CY1DY12AY2BY2CY2DY23AY3BY3CY3DY3B=ABCDX1aAX1aBX1aCX1aDX1abAX1bBX1bCX1bDX1bcAX1cBX1cCX1cDX1c2aAX2aBX2aCX2aDX2abAX2bBX2bCX2bDX2bcAX2cBX2cCX2cDX2c3aAX3aBX3aCX3aDX3abAX3bBX3bCX3bDX3bcAX3cBX3cC

多索相乘 code AX BX python pandas

python - Pandas 将数据帧与多索引和重叠索引级别相乘

我正在努力完成一项本应很简单的任务，但它并没有像我想象的那样工作。我有两个带有多索引和列的数字数据框A和B:A=ABCDX1AX1BX1CX1DX12AX2BX2CX2DX23AX3BX3CX3DX3Y1AY1BY1CY1DY12AY2BY2CY2DY23AY3BY3CY3DY3B=ABCDX1aAX1aBX1aCX1aDX1abAX1bBX1bCX1bDX1bcAX1cBX1cCX1cDX1c2aAX2aBX2aCX2aDX2abAX2bBX2bCX2bDX2bcAX2cBX2cCX2cDX2c3aAX3aBX3aCX3aDX3abAX3bBX3bCX3bDX3bcAX3cBX3cC

多索相乘 code AX BX python pandas