gpu-constant-memory

c++ - CUDA 探查器 : Calculate memory and compute utilization

我正在尝试使用ubuntu上的CUDAnsight分析器为我的GPU加速应用程序的内存带宽利用率和计算吞吐量利用率建立两个总体测量值。该应用程序在TeslaK20cGPU上运行。我想要的两个测量值在某种程度上与此图中给出的测量值相当:问题是这里没有给出确切的数字，更重要的是我不知道这些百分比是如何计算的。内存带宽利用率Profiler告诉我我的GPU的最大全局内存带宽为208GB/s。这是指设备内存BW还是全局内存BW？它说的是全局，但第一个对我来说更有意义。对于我的内核，分析器告诉我设备内存带宽为98.069GB/s。假设最大208GB/s是指设备内存，那么我可以简单地将内存带宽利用

utilization amp strong 量值 section c++ubuntu cuda profiling

c++ - 从 GPU 复制到 CPU 比从 CPU 复制到 GPU 慢

开始学cuda有一段时间了，遇到以下问题下面看看我是怎么做的:复制GPUint*B;//...int*dev_B;//initializeB=0cudaMalloc((void**)&dev_B,Nel*Nface*sizeof(int));cudaMemcpy(dev_B,B,Nel*Nface*sizeof(int),cudaMemcpyHostToDevice);//...//ExecuteonGPUthefollowingfunctionwhichissupposedtofillin//thedev_BmatrixwithintegersfindNeiborElem>>(dev

amp GPU dev code dev_B c++performance parallel-processing cuda

c++ - 奇怪的 "Memory Leak Detection"错误 C++

我有一个非常奇怪的内存泄漏问题。我使用_CrtDumpMemoryLeaks来检查泄漏。这是我的WinMain函数:intAPIENTRY_tWinMain(_In_HINSTANCEhInstance,_In_opt_HINSTANCEhPrevInstance,_In_LPTSTRlpCmdLine,_In_intnCmdShow){UNREFERENCED_PARAMETER(hPrevInstance);UNREFERENCED_PARAMETER(lpCmdLine);//////////////////SETUPCHECKSFORMEMORYLEAKS///////////

amp 43 normal section block c++visual-c++memory memory-leaks

c++ - std::memory_order 和三个线程的同步谜题

这是一个关于std::memory_order的问题C++11中的规则，当涉及到三个线程时。比如说，一个线程producer保存一个值并设置一个标志。然后，另一个线程relay在设置另一个标志之前等待这个标志。最后，第三个线程consumer等待来自relay的标志，这应该表明data已准备好供消费者使用。这是一个最小程序，采用C++引用(http://en.cppreference.com/w/cpp/atomic/memory_order)中示例的样式:#include#include#includestd::atomicflag1=ATOMIC_VAR_INIT(false);s

memory_order amp code memory strong c++c++11 atomic

c++ - 如何同时在 CPU 和 GPU 设备上运行任务？

我有这段代码，它是经过概要分析、优化和缓存高效的，因为我可能会以我的知识水平获得它。它在概念上像这样在CPU上运行:#pragmaompparallelforschedule(dynamic)for(inti=0;i恰好RunTask()本质上是一组线性代数运算，每次都在同一个非常大的数据集上重复运算，因此适合在GPU上运行。所以我想实现以下目标:将一些任务卸载到GPU当GPU繁忙时，将其余任务交给CPU处理对于CPU级别的操作，保留我的superRunTask()函数，而无需修改它以符合restrict(amp)。我当然可以为GPU任务设计一个restrict(amp)兼容的lamb

amp 43 code GPU parallel c++c++-amp

c++ - OpenCV ORB GPU 实现比 CPU 慢

我正在尝试对视频帧运行ORBOpenCV算法，我注意到CPU版本的执行速度比GPU版本快得多。这是代码:#include#include"opencv2/core/core.hpp"#include"opencv2/features2d/features2d.hpp"#include"opencv2/highgui/highgui.hpp"#include"opencv2/gpu/gpu.hpp"#include#include#include#include#include#include#includeusingnamespacecv;usingnamespacestd;using

amp OpenCV frame myCapture include c++gpu orb

c++ - Rcpp Armadillo : Issue with memory usage

我已经开始使用Rcpp。我很喜欢。我对编程相当陌生。我有一个关于内存使用的问题。下面是一个可重现的问题:library(RcppArmadillo)library(inline)code我的理解是，在上面的问题中，唯一的内存使用是当我将数组分配给变量时。输入在R.所以我应该只使用大约1.6gb(2*2*50*8=1600)。当我去Rcpp时，我初始化了变量输入_使用作为指针的SEXP对象。所以这不应该使用任何额外的内存。然后当我初始化变量打扰，我也使用一个指针并设置copy_aux=FALSE。所以我不应该使用任何内存。因此，如果我的理解是正确的，那么我在运行代码时应该只使用1.6GB

amp Armadillo code strong lt c++r memory rcpp

c++ - std::memory_order_seq_cst 是如何工作的

我从以下位置获取了有关std::memory_order_seq_cst的示例:http://en.cppreference.com/w/cpp/atomic/memory_order#include#include#includestd::atomicx={false};std::atomicy={false};std::atomicz={0};voidwrite_x(){x.store(true,std::memory_order_seq_cst);}voidwrite_y(){y.store(true,std::memory_order_seq_cst);}voidread_x_

memory_order_seq_cst amp code memory c++c++11 memory-barriers memory-model stdatomic

c++ - OpenCV GPU Farneback 光流在多线程中运行不佳

我的应用程序使用Opencvgpu类gpu::FarnebackOpticalFlow来计算输入视频的一对连续帧之间的光流。为了加快进程，我利用OpenCV的TBB支持在多线程中运行该方法。但是，多线程性能并不像单线程那样。只是为了让您了解不同的行为，这里有两个快照，分别是单线程和多线程实现的。多线程实现假定将图像分成8个不同的条纹(我电脑上的核心数)，并且在每个条纹上应用用于光流的Farneback实现的gpu方法。以下是这两种方法对应的代码行:单线程实现/*main.cpp*///prevImgandimgaretheinputMatimagesextractedfromthein

中运多线 flow farneback_flow img c++multithreading opencv gpu opticalflow

c++ - 为什么不允许优化器折叠 "constant context"？

__builtin_is_constant_evaluated是用于在clang和gcc的标准库中实现std::is_constant_evaluated的内置函数。在常量上下文中无效的代码通常也更难被优化器常量折叠。例如:intf(inti){if(__builtin_is_constant_evaluated())return1;else{int*ptr=newint(1);inti=*ptr;deleteptr;returni;}}由gcc-O3发出:f(int):subrsp,8movedi,4calloperatornew(unsignedlong)movesi,4movrd

amp constant code evaluated c++optimization c++20

176 177 178179180 181 182