python - Pandas :这里的内存泄漏在哪里？

coder 2023-08-16 原文

我在 python 中使用 pandas 库时遇到内存泄漏问题。我在我的类中创建了 pandas.dataframe 对象，并且我有方法可以根据我的条件更改数据帧的大小。更改数据框大小并创建新的 pandas 对象后，我在类里面重写了原始的 pandas.dataframe。但是即使在显着减少初始表之后，内存使用率也非常高。一些简短示例的代码(我没有编写进程管理器，请参阅任务管理器):

import time, string, pandas, numpy, gc
class temp_class ():

    def __init__(self, nrow = 1000000, ncol = 4, timetest = 5):

        self.nrow = nrow
        self.ncol = ncol
        self.timetest = timetest

    def createDataFrame(self):

        print('Check memory before dataframe creating')
        time.sleep(self.timetest)
        self.df = pandas.DataFrame(numpy.random.randn(self.nrow, self.ncol),
            index = numpy.random.randn(self.nrow), columns = list(string.letters[0:self.ncol]))
        print('Check memory after dataFrame creating')
        time.sleep(self.timetest)

    def changeSize(self, from_ = 0, to_ = 100):

        df_new = self.df[from_:to_].copy()
        print('Check memory after changing size')
        time.sleep(self.timetest)

        print('Check memory after deleting initial pandas object')
        del self.df
        time.sleep(self.timetest)

        print('Check memory after deleting copy of reduced pandas object')
        del df_new
        gc.collect()
        time.sleep(self.timetest)

if __name__== '__main__':

    a = temp_class()
    a.createDataFrame()
    a.changeSize()

在创建数据框之前，我有大约。 15 mb 的内存使用量
创建后 - 67mb
更改大小后 - 67 mb
删除原始数据框后 - 35mb
删除缩减表后 - 31 mb。

16 MB？

我在 Windows 7 (x64) 机器上使用 python 2.7.2(x32)，pandas。版本是 0.7.3。 numpy.version 是 1.6.1

最佳答案

需要指出的几点:

在“Check memory after changing size”中，你还没有删除原来的DataFrame，所以这会使用更多的内存
Python 解释器对占用操作系统内存有点贪心。

我对此进行了调查，可以向您保证 pandas 不会泄漏内存。我正在使用 memory_profiler (http://pypi.python.org/pypi/memory_profiler) 包:

import time, string, pandas, numpy, gc
from memory_profiler import LineProfiler, show_results
import memory_profiler as mprof

prof = LineProfiler()

@prof
def test(nrow=1000000, ncol = 4, timetest = 5):
    from_ = nrow // 10
    to_ = 9 * nrow // 10
    df = pandas.DataFrame(numpy.random.randn(nrow, ncol),
                          index = numpy.random.randn(nrow),
                          columns = list(string.letters[0:ncol]))
    df_new = df[from_:to_].copy()
    del df
    del df_new
    gc.collect()

test()
# for _ in xrange(10):
#     print mprof.memory_usage()

show_results(prof)

这是输出

10:15 ~/tmp $ python profmem.py 
Line #    Mem usage  Increment   Line Contents
==============================================
     7                           @prof
     8     28.77 MB    0.00 MB   def test(nrow=1000000, ncol = 4, timetest = 5):
     9     28.77 MB    0.00 MB       from_ = nrow // 10
    10     28.77 MB    0.00 MB       to_ = 9 * nrow // 10
    11     59.19 MB   30.42 MB       df = pandas.DataFrame(numpy.random.randn(nrow, ncol),
    12     66.77 MB    7.58 MB                             index = numpy.random.randn(nrow),
    13     90.46 MB   23.70 MB                             columns = list(string.letters[0:ncol]))
    14    114.96 MB   24.49 MB       df_new = df[from_:to_].copy()
    15    114.96 MB    0.00 MB       del df
    16     90.54 MB  -24.42 MB       del df_new
    17     52.39 MB  -38.15 MB       gc.collect()

所以确实，使用的内存比我们开始时多。但是它漏水了吗？

for _ in xrange(20):
    test()
    print mprof.memory_usage()

并输出:

10:19 ~/tmp $ python profmem.py 
[52.3984375]
[122.59375]
[122.59375]
[122.59375]
[122.59375]
[122.59375]
[122.59375]
[122.59375]
[122.59375]
[122.59375]
[122.59375]
[122.59375]
[122.59375]
[122.59375]
[122.59375]
[122.59375]
[122.59375]
[122.59765625]
[122.59765625]
[122.59765625]

因此，实际上发生的事情是，Python 进程正在占用一个内存池，因为它一直在使用内存池，以避免必须不断地从主机操作系统请求更多内存(然后释放它)。我不知道这背后的所有技术细节，但至少这是正在发生的事情。

关于python - Pandas :这里的内存泄漏在哪里？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10601041/

有关python - Pandas :这里的内存泄漏在哪里？的更多相关文章

ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - Ruby 中的内存模型 - 2
ruby如何管理内存。例如:如果我们在执行过程中采用C程序，则以下是内存模型。类似于这个ruby如何处理内存。C:__________________|||stack|||------------------||||------------------|||||Heap|||||__________________|||data|__________________|text|__________________Ruby:? 最佳答案 Ruby中没有“内存”这样的东西。Class#allocate分配一个对象并返回该对象。这就是程序
Python 相当于 Perl/Ruby ||= - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意，但是谷歌搜索||=并不是很有帮助；)Python中是否有与Ruby和Perl中的||=语句等效的语句？例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外，类似这样的东西的通用术语是什么？条件分配是我的第一个猜测，但Wikipediapage跟我想的不太一样。
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
python - 如何读取 MIDI 文件、更改其乐器并将其写回？ - 2
我想解析一个已经存在的.mid文件，改变它的乐器，例如从“acousticgrandpiano”到“violin”，然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容，该乐器通过program_change或patch_change指令进行了更改，但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。最佳答案 MIDIpackage会为您完成此操作，但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成，每个音轨是十六个channel中任何一个上的
「Python｜Selenium｜场景案例」如何定位iframe中的元素？ - 2
本文主要介绍在使用Selenium进行自动化测试或者任务时，对于使用了iframe的页面，如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候，可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签，如果直接查找是无法找到的，会抛出没有找到元素的异常。比如近在咫尺的例子就是，CSDN的登录窗体就是使用的iframe，大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素，会抛出NoSuchElementException异常。解决
python ffmpeg 使用 pyav 转换一组图像到视频 - 2
2022/8/4更新支持加入水印水印必须包含透明图像，并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时，是将这组图像视为MJPG流。我需要转换一组PNG图像到视频，FFMPEG就不认了。pyav内置了ffmpeg库，不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p
Python 刷Leetcode题库，顺带学英语单词（31） - 2
ValidPalindromeGivenastring,determineifitisapalindrome,consideringonlyalphanumericcharactersandignoringcases. [#125]Example:"Aman,aplan,acanal:Panama"isapalindrome."raceacar"isnotapalindrome.Haveyouconsiderthatthestringmightbeempty?Thisisagoodquestiontoaskduringaninterview.Forthepurposeofthisproblem

python - Pandas :这里的内存泄漏在哪里？

有关python - Pandas :这里的内存泄漏在哪里？的更多相关文章

随机推荐