草庐IT

关于 cuda:Python Multiprocessing with PyCUDA

codeneng 2023-03-28 原文

Python Multiprocessing with PyCUDA

我遇到了一个问题,我想在多个 CUDA 设备上拆分,但我怀疑我当前的系统架构阻碍了我;

我设置的是一个 GPU 类,具有在 GPU 上执行操作的函数(奇怪)。这些操作的风格是

1
2
for iteration in range(maxval):
    result[iteration]=gpuinstance.gpufunction(arguments,iteration)

我原以为 N 个设备会有 N 个 gpuinstance,但我对多处理了解不够,无法看到应用此功能的最简单方法,以便异步分配每个设备,而且奇怪的是我的示例很少偶遇具体演示了处理后的整理结果。

谁能给我这方面的任何指点?

更新
感谢 Kaloyan 在多处理领域的指导;如果 CUDA 不是特别的症结所在,我会将您标记为已回答。对不起。

在使用此实现之前,gpuinstance 类使用 import pycuda.autoinit 启动了 CUDA 设备,但这似乎不起作用,只要每个(正确范围的)线程遇到 cuda 命令,就会抛出 invalid context 错误。然后我尝试在类的 __init__ 构造函数中手动初始化...

1
2
3
4
pycuda.driver.init()
self.mydev=pycuda.driver.Device(devid) #this is passed at instantiation of class
self.ctx=self.mydev.make_context()
self.ctx.push()

我的假设是在创建 gpuinstances 列表和线程使用它们之间保留上下文,因此每个设备都处于自己的上下文中。

(我还实现了一个析构函数来处理 pop/detach 清理)

问题是,只要线程尝试接触 CUDA,仍然会出现 invalid context 异常。

各位有什么想法吗?感谢能走到这一步。自动为"香蕉"工作的人投票! :P

  • gpuinstance.gpufunction(arguments,iteration) 是异步的还是会阻止执行?


你需要先把你所有的香蕉都放在 CUDA 方面,然后考虑用 Python 完成这项工作的最佳方法[我知道无耻的代表嫖娼]。

CUDA 多 GPU 模型在 4.0 之前非常简单 - 每个 GPU 都有自己的上下文,每个上下文必须由不同的主机线程建立。所以伪代码中的想法是:

  • 应用程序启动,进程使用 API 来确定可用 GPU 的数量(注意 Linux 中的计算模式之类的东西)
  • 应用程序为每个 GPU 启动一个新的主机线程,传递一个 GPU id。每个线程隐式/显式调用等效的 cuCtxCreate() 传递它已分配的 GPU id
  • 利润!
  • 在 Python 中,这可能看起来像这样:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    import threading
    from pycuda import driver

    class gpuThread(threading.Thread):
        def __init__(self, gpuid):
            threading.Thread.__init__(self)
            self.ctx  = driver.Device(gpuid).make_context()
            self.device = self.ctx.get_device()

        def run(self):
            print"%s has device %s, api version %s"  \\
                 % (self.getName(), self.device.name(), self.ctx.get_api_version())
            # Profit!

        def join(self):
            self.ctx.detach()
            threading.Thread.join(self)

    driver.init()
    ngpus = driver.Device.count()
    for i in range(ngpus):
        t = gpuThread(i)
        t.start()
        t.join()

    这假设只建立一个上下文而不事先检查设备是安全的。理想情况下,您会检查计算模式以确保尝试安全,然后在设备繁忙时使用异常处理程序。但希望这能给出基本的想法。

    • @talonmies 一如既往,谢谢,但快速查询:如果我理解正确,每个线程都被"实例化"、执行并加入。这不会导致执行串行运行吗?我认为最简单的解决方法是将 t.join() 分成一个单独的循环。
    • @Andrew Bolter:是的,我想应该在一个循环中调用所有的 start 方法,然后再调用所有的连接。我也想知道在那种情况下的全局解释器锁......我必须承认我为我的 python 多 GPU 使用了 mpi4py,我也有一个用于多 GPU 的 pthreads 框架,但通常只使用 C/ C 和 Fortran。
    • @Andrew Bolter:我刚刚在我发布的代码的修改版本中添加了一点工具,我开始怀疑为此使用 python 线程的理智。我不想打赌我在这一点上发布的内容的正确性......
    • 我怀疑我会以 MPI 为目标来重构问题,但我觉得这应该更微不足道。此外,为了解决线程缺陷,我也一直在研究多处理。
    • 另外,我不太了解您的"pre-4.0"评论,因为我理解它仍然支持以前的上下文相关的多设备操作?
    • 在 cuda 4.0 中,一个线程可以保存多个 GPU 上下文,您只需在任何操作之前使用上下文选择来使用任何给定的 GPU。在 4.0 之前,每个 GPU 上下文有 1 个主机线程。这里的问题可能是虽然python线程是pthread,但它仍然依赖于父线程解释器,这对于CUDA线程安全来说可能还不够,CUDA 4.0之前
    • 这就是我在 PG 中读到的内容,但我认为解决方法是声明式选择设备? (如你的回答)我会做一些实验。再次感谢。
    • @talonmies,在讨论过的摆弄之后,仍然得到无效的上下文(有或没有额外的上下文推送/弹出)现在查看 mpi4py 但想了解为什么这不像想象的那样工作。免责声明:我正在运行 4.0
    • 原来 driver.init()s 也必须在 run 函数中。 ref:article.gmane.org/gmane.comp.python.cuda/1539/… 但由于这或多或少是 autoinit 的行为,暂时使用它,但我想要实现的是有效地实例化 4 gpu对象,我可以一遍又一遍地调用多个函数,如果这有意义吗?
    • 这确实有道理。大多数人使用多 GPU 的方式是设置持久线程,每个线程都有自己的上下文,在应用程序的生命周期中,这些线程可以根据需要多次发送工作。该链接是基于多处理的,因此它与线程不同,因为您正在运行不同的进程,它们不共享解释器。
    • 此 wiki 链接显示了如何进行线程化 - wiki.tiker.net/PyCuda/Examples/MultipleThreads,它似乎确实有效。您可能可以使用线程互斥锁和信号量原语为它们提供工作,并让它们根据需要调用您的单个 gpu 工作实例。


    您需要的是 map 内置函数的多线程实现。这是一种实现。只需稍作修改即可满足您的特定需求,您将获得:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    import threading

    def cuda_map(args_list, gpu_instances):

        result = [None] * len(args_list)

        def task_wrapper(gpu_instance, task_indices):
            for i in task_indices:
                result[i] = gpu_instance.gpufunction(args_list[i])

        threads = [threading.Thread(
                        target=task_wrapper,
                        args=(gpu_i, list(xrange(len(args_list)))[i::len(gpu_instances)])
                  ) for i, gpu_i in enumerate(gpu_instances)]
        for t in threads:
            t.start()
        for t in threads:
            t.join()

        return result

    它或多或少与您上面的相同,最大的不同是您不必花时间等待 gpufunction 的每个完成。

    • 感谢您的评论,它引导我找到解决方案,但它遇到了与设备上下文相关的 CUDA 相关问题。现在更新问题以反映这一点

    有关关于 cuda:Python Multiprocessing with PyCUDA的更多相关文章

    1. ruby-on-rails - 关于 Ruby 的一般问题 - 2

      我在我的rails应用程序中安装了来自github.com的acts_as_versioned插件,但有一段代码我不完全理解,我希望有人能帮我解决这个问题class_eval我知道block内的方法(或任何它是什么)被定义为类内的实例方法,但我在插件的任何地方都找不到定义为常量的CLASS_METHODS,而且我也不确定是什么here,并且有问题的代码从lib/acts_as_versioned.rb的第199行开始。如果有人愿意告诉我这里的内幕,我将不胜感激。谢谢-C 最佳答案 这是一个异端。http://en.wikipedia

    2. ruby - 我怎样才能更好地了解/了解更多关于 Ruby 的知识? - 2

      按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭9年前。我最近开始学习Ruby,这是我的第一门编程语言。我对语法感到满意,并且我已经完成了许多只教授相同基础知识的教程。我已经写了一些小程序(包括我自己的数组排序方法,在有人告诉我谷歌“冒泡排序”之前我认为它非常聪明),但我觉得我需要尝试更大更难的东西来理解更多关于Ruby.关于如何执行此操作的任何想法?

    3. ruby - 关于 Ruby 中 Dir[] 和 File.join() 的混淆 - 2

      我在Ruby中遇到了一个关于Dir[]和File.join()的简单程序,blobs_dir='/path/to/dir'Dir[File.join(blobs_dir,"**","*")].eachdo|file|FileUtils.rm_rf(file)ifFile.symlink?(file)我有两个困惑:首先,File.join(@blobs_dir,"**","*")中的第二个和第三个参数是什么意思?其次,Dir[]在Ruby中有什么用?我只知道它等价于Dir.glob(),但是,我对Dir.glob()确实不是很清楚。 最佳答案

    4. elasticsearch源码关于TransportSearchAction【阶段三】 - 2

      1.回顾.TransportServicepublicclassTransportServiceextendsAbstractLifecycleComponentTransportService:方法:1publicfinalTextendsTransportResponse>voidsendRequest(finalTransport.Connectionconnection,finalStringaction,finalTransportRequestrequest,finalTransportRequestOptionsoptions,TransportResponseHandlerT>

    5. 关于Qt程序打包后运行库依赖的常见问题分析及解决方法 - 2

      目录一.大致如下常见问题:(1)找不到程序所依赖的Qt库version`Qt_5'notfound(requiredby(2)CouldnotLoadtheQtplatformplugin"xcb"in""eventhoughitwasfound(3)打包到在不同的linux系统下,或者打包到高版本的相同系统下,运行程序时,直接提示段错误即segmentationfault,或者Illegalinstruction(coredumped)非法指令(4)ldd应用程序或者库,查看运行所依赖的库时,直接报段错误二.问题逐个分析,得出解决方法:(1)找不到程序所依赖的Qt库version`Qt_5'

    6. 【RuntimeError: CUDA error: device-side assert triggered】问题与解决 - 2

      RuntimeError:CUDAerror:device-sideasserttriggered问题描述解决思路发现问题:总结问题描述当我在调试模型的时候,出现了如下的问题/opt/conda/conda-bld/pytorch_1656352465323/work/aten/src/ATen/native/cuda/IndexKernel.cu:91:operator():block:[5,0,0],thread:[63,0,0]Assertion`index>=-sizes[i]&&index通过提示信息可以知道是个数组越界的问题。但是如图一中第二行话所说这个问题可能并不出在提示的代码段

    7. ruby - 关于 Ruby/ChefSpec 编码风格的反馈 - 2

      我是Ruby的新手,但过去两周我一直在对Chef测试进行大量研究。该测试使用ChefSpec和Fauxhai,但它看起来不是很“像ruby”,我希望社区能给我一些编码风格的建议。有没有更好的方法来编写这样的嵌套循环?Recipe/foo/recipes/default.rbpackage"foo"doaction:installendRecipe/foo/spec/default_spec.rbrequire'chefspec'describe'foo::default'doplatforms={"debian"=>['6.0.5'],"ubuntu"=>['12.04','10.04

    8. ruby - 关于 ruby​​ 类变量的困惑 - 2

      假设一个使用类变量的简单ruby​​程序,classHolder@@var=99defHolder.var=(val)@@var=valenddefvar@@varendend@@var="toplevelvariable"a=Holder.newputsa.var我猜结果应该是99,但输出不是99。我想知道为什么。由于类变量的范围是类,我假设@@var="toplevelvariable"行不会影响类中的变量。 最佳答案 @@var是Holder的类变量。而顶层的@@var不是Holder的同名类变量@@var,是你在创建类Obj

    9. 一文解决关于VLAN所有的疑惑 - 2

      一文解决关于VLAN所有的疑惑VLAN基本概念为什么需要VLAN?怎么在交换机上划分VLAN,VLAN的工作原理有了子网,已经隔离了广播,还需要VLAN干啥?只进行子网划分,不进行VLAN划分VLAN划分与子网划分附加VLAN信息的方法VLAN划分交换机的端口类型(Access和Trunk)一、访问链接二、汇聚链接汇聚链接VLAN间通信为什么要进行VLAN间通信?路由器实现VLAN间通信路由器和交换机的连接方式通信细节三层交换机实现VLAN间通信加速VLAN间通信三层交换机与路由器三层交换机路由器路由器和交换机配合构建LAN的实例使用VLAN设计局域网的特点VLAN增加网络的灵活性不使用VLA

    10. ruby - 关于 CoffeeScript 变量范围的困惑 - 2

      我正在尝试了解CoffeeScript变量的范围。根据文档:ThisbehavioriseffectivelyidenticaltoRuby'sscopeforlocalvariables.但是,我发现它的工作方式不同。在CoffeeScript中a=1changeValue=->a=3changeValue()console.log"a:#{a}"#Thisdisplays3在ruby中a=1deffa=3endputsa#Thisdisplays1有人能解释一下吗? 最佳答案 Ruby的局部变量(以[a-z_]开头)arerea

    随机推荐