pytorch-gpu-cuda

c++ - 我有两个 GPU，我怎么能只让其中一个执行特定的 CUDA 任务呢？

刚接触CUDA，但有一些时间花在计算上，我家里有geforces，办公室有tesla(同代)。在家里，我在同一台计算机上安装了两个gpus，一个是GK110(计算能力3.5)，另一个是GF110(计算能力2.0)，我更喜欢使用GK110仅用于计算任务，GF110用于显示，除非我告诉它进行计算，有没有办法通过驱动程序设置来完成，或者我仍然需要重写我的一些代码？另外，如果我没理解错的话，如果GK110的显示端口没有连接，那么烦人的windows超时检测即使计算时间很长也不会尝试重置它？顺便说一句，我的CUDA代码是用compute_35和compute20编译的，因此代码可以在两个GPU上

amp 43 section 110 CUDA c++gpu nvidia

c++ - 将 MPI 与 c++11 和 CUDA 相结合

我正在编写分子动力学模拟，一些内核将使用CUDA进行计算。我从使用一些c++11功能的普通CPU实现开始我的代码。现在我必须添加一些CUDA代码，我必须使用不支持c++11功能的编译器(gcc在我的makefile中，我分别从所有cpp文件创建对象，最后将它们全部链接在一起。此外，我的代码以这样一种方式拆分，即可以使用“现代”编译器编译没有CUDA的部分，而使用旧编译器编译其余部分(利用CUDA)。我现在的问题是，这是否可以，或者我是否会/可能会遇到问题？最佳答案我不知道Cuda，但我知道的是将C++98和C++11目标文件链接

amp 43 code section double c++c++11 cuda mpi

c++ - 改进 CUDA 中的异步执行

我目前正在编写一个程序，使用CUDAAPI在GPU上执行大型模拟。为了加速性能，我尝试同时运行我的内核，然后再次将结果异步复制到主机内存中。代码大致如下所示:#defineNSTREAMS8#defineBLOCKDIMX16#defineBLOCKDIMY16voiddomainUpdate(float*domain_cpu,//pointertodomainonhostfloat*domain_gpu,//pointertodomainondeviceconstunsignedintdimX,constunsignedintdimY,constunsignedintdimZ){di

amp 改进 section domain NSTREAMS c++cuda gpu gpgpu

c++ - CUDA 中的复杂算术

我经常在CUDA中使用复杂的算术，需要定义自己的实现，例如超越函数(sin、cos、exp,...)在复数上。我现在想通过编写一个包含此类函数的库来明确解决问题，以便考虑“大量”情况并避免在任何时候因新实现而陷入困境。我知道，对于他们中的一些人来说，从准确性和计算复杂性之间权衡的角度来看，编写代码可能并非易事。不过，我也知道C++有自己的complexmathlibrary.是否有可能为CUDA目的“回收”现有的C++解决方案？最佳答案可能你已经找到了答案，但这是我的答案:有可能“回收”sourcesforcomplexC++I

amp 43 section C++complex c++cuda

c++ - 在 C++Amp 中减少 GPU-CPU 数据传输

我在尝试使用C++Amp优化我的应用程序时遇到了以下问题:数据传输。对我来说，将数据从CPU复制到GPU没有问题(因为我可以在应用程序的初始状态下执行此操作)。更糟糕的是，我需要快速访问C++Amp内核计算的结果，因此GPU和CPU之间的瓶颈很痛苦。我读到Windows8.1下的性能提升，但是我使用的是Windows7，我不打算更改它。我阅读了有关暂存阵列的信息，但我不知道它们如何帮助解决我的问题。我需要向主机返回一个浮点值，这似乎是最耗时的操作。floatSubset::reduction_cascade(unsignedelement_count,concurrency::arra

amp 43 C++tile SUCCESS c++multithreading visual-studio gpgpu c++-amp

一文读懂「四大主流计算芯片 CPU、GPU、ASIC、FPGA」特点和场景

纵观人类历史，从结绳计数、木制计数到巴比伦的粘土板上的刻痕，再到中国古代的算盘，社会生产力的提高与当时所采用的计算工具密切相关。计算工具能力越强，就能大幅缩短人类解决复杂问题的时间，社会生产力水平自然就会越高。CPUCPU，全称CentralProcessingUnit，即中央处理器。现代电子计算机的发明是基于1940年代诞生的冯·诺依曼架构，这个架构主要由运算器、控制器、存储器、输入设备、输出设备等五个主要部分组成。特点：CPU具有通用性和灵活性，能够执行各种任务，如操作系统管理、软件运行和数据处理等。它擅长串行计算，即按照指定顺序执行任务。应用：广泛应用于个人电脑、服务器、移动设备等各种计

一文芯片 xff0c xff xff0 fpga开发人工智能大模型

c++ - 我怎样才能让 Doxygen 知道 CUDA 内核调用？

我正在尝试使用Doxygen记录一个用CUDAC编写的项目。该文档工作正常。然而，调用者图不包括内核调用，如GPU_foo>>().例如，在这个简单的例子中:#include/*!*@briefglobalhellofoo*/__global__voidglobal_hello(void){printf("Hello\n");}/*!*@briefCPUhellofoo*/voidhello(void){printf("Hello\n");}/*!*@briefmain*/intmain(){hello();global_hello>>();return0;}使用相应的Doxyfile

amp Doxygen section code hello c++c cuda

NVDIA各型号GPU性能与参数列表： 3090，4090，A40，A5000，V100性能参数对比

NVIDIA作为世界领先的图形处理器制造商，一直以来都以其强大的性能和高度可定制化的产品而闻名。其中包括了3090，4090，A40，A5000和V100等型号。下面对其逐一解释：1.NVIDIAGeForceRTX3090：3090是NVIDIARTX30系列中的旗舰级显卡，它搭载了Ampere架构的核心，具备24GBGDDR6X显存，能够提供卓越的游戏性能和绝佳的图形渲染能力。它拥有10496个CUDA核心、384位记忆总线和最大送风量可以达到和低于20%的性能差距。（用户可根据自己的需求选择）2.NVIDIAGeForceRTX4090：4090是NVIDIARTX40系列的超高性能显卡

性能参数 xff0c xff xff0 人工智能机器学习科技 ai

c++ - 从 python 使用 Opencv Cuda 函数

对于我的一个类(class)项目，我需要使用OpenCVsGPU库。我正在处理使用OpenCVpython的现有代码，我的工作是找到一种访问OpenCVCuda库的方法，因为目前没有可访问的Python绑定(bind)到OpenCV的各种CUDA模块。我现在非常需要的两个函数是cuda::warpPerspective和cv::cuda::DescriptorMatcher::knnMatch()。我尝试按照@ostrumvulpes在AccessingOpenCVCUDAFunctionsfromPython(NoPyCUDA)中的建议来实现warpPerspective它工作得很好

amp Opencv code cdef 39 c++cython

c++ - 在 CUDA 源文件上使用 clang-tidy

存在多种专为C/C++设计的静态分析工具，但它们对于测试CUDA源代码并不是特别有用。自clangversion6能够编译CUDA，我想使用clang-tidy检查我的选项，它似乎没有切换架构的选项。有没有办法让它工作？例如用于打开CUDA解析器的编译时开关、自定义检查形式的扩展，或者它可能是计划中的功能？最佳答案基于clang的工具的一个问题是它们不以与clang完全相同的方式解析文件。第一个问题是，与C/C++编译不同，CUDA编译对源码进行了多次编译。默认情况下，当您给它一个CUDA文件时，clang会创建多个编译作业，并

clang-tidy amp clang code c++cuda static-analysis

14 15 161718 19 20