nvidia-cuda-toolkit

c++ custom UI ToolKit -- 跨平台抽象层的选项

作为跨平台文本编辑器SublimeText2的粉丝，我一直在研究它的开发方式。开发人员注意到它是99%的c++和一些用于linux的GTK，并且它使用他称之为“SublimeGUI”的自定义UI工具包。这是来自开发者的引述SublimeText2itselfusesacustomUItoolkit.Therearealotofappswherethismaynotmakesense,butit'snotsuchanunreasonablechoiceforSublimeText,whereIalwaysknewthatalotoftheUIcontrolsweregoingtohave

c++ - 使用套接字/内存而不是文件在 Cuda 中解码视频

我目前正在尝试使用cuda解码视频。我有名为cudaDecodeD3D9的cuda示例。此示例使用名为cuvidCreateVideoSource的方法，该方法采用指向源视频的文件指针。有没有办法让Cuda从内存/套接字/流中加载视频？最佳答案事实证明，我根本无法使用cuvidCreateVideoSource方法，而是可以通过调用cuvidParseVideoData将每一帧数据直接提供给cuda视频解析器。这是一个从文件中读取一帧并将其提供给cuda解析器的示例。该文件是我创建的，方法是将每个帧的大小写入文件，然后是帧数据。

套接字套接 section code unsigned c++sockets cuda

c++ - 在 CUDA 内核中放置一个 for 循环

在内核中放置一个for循环是个坏主意吗？或者这是一件很常见的事情？最佳答案将循环放入内核是很常见的。这并不意味着它总是一个好主意，但也不意味着它不是。确定如何有效地分配任务和数据以及利用相关并行性的一般问题是一个非常困难且Unresolved问题，尤其是在涉及CUDA时。正在进行积极的研究以有效地确定(即，不盲目地探索参数空间)如何为给定的内核实现最佳结果。有时，将循环放入内核中会很有意义。例如，对具有强数据独立性的大型常规数据结构的许多元素进行迭代计算非常适合包含循环的内核。其他时候，您可能决定让每个线程处理许多数据点，例如您

中放 amp section CUDA c++c

cuda 5.0支持的c++版本

我找不到CUDA5.0支持哪个版本/哪些c++概念。我在CUDA5.0RC随附的编程指南或引用指南中找不到任何信息。特别是我想知道CUDA5.0是否支持C++11。谁能告诉我在哪里可以找到这些信息？最佳答案显然，5.0RC中没有可用的C++11功能。nvcc仍然不理解gcc4.6标准包含中使用的C++11语法(参见ErrorwhileusingCUDAandC++11):$nvcc--versionnvcc:NVIDIA(R)CudacompilerdriverCopyright(c)2005-2012NVIDIACorpora

amp cuda section code stackoverflow c++c++11

c++ - 无法从静态初始化代码启动 CUDA 内核

我有一个在其构造函数中调用内核的类，如下所示:“标量场.h”#includevoidERROR_CHECK(cudaError_terr,constchar*msg){if(err!=cudaSuccess){std::cout“类A.h”#include"ScalarField.h"static__global__voidKernelSetScalarField(ScalarFieldv){intindex=threadIdx.x+blockIdx.x*blockDim.x;if(index>>(v);ERROR_CHECK(cudaGetLastError(),"Kernel");

amp 43 code 34 lt c++cuda global-variables static-initialization

c++ - 将常量参数传递给 CUDA 内核的最快(或最优雅)方式

假设我想要一个需要做很多事情的CUDA内核，但是有一些对所有内核都是不变的圆顶参数。此参数作为输入传递给主程序，因此它们不能在#DEFINE中定义。内核将运行多次(大约65K)并且它需要这些参数(和一些其他输入)来进行计算。我的问题是:将这些常量传递给内核的最快(或者最优雅)的方法是什么？常量是2或3个元素长度的float*或int*数组。他们大约有5~10个。玩具示例:2个常量const1和const2__global__voidkernelToyExample(intinputdata,?????){value=inputdata*const1[0]+const2[1]/const

amp 传递 code const const1 c++cuda

c++ - 可由设备或主机调用的 CUDA 函数

我在一些需要从设备和主机调用的CUDA代码中有一个可重用的函数。是否有合适的限定符？例如在这种情况下，func1的正确定义是什么:intfunc1(inta,intb){returna+b;}__global__devicecode(float*A){inti=blockDim.x*blockIdx.x+threadIdx.x;A[i]=func1(i,i);}voidmain(){//Normalcudamemoryset-up//Callfunc1frominsidemain:intj=func1(2,4)//Normalcudamemorycopy/programrun/retr

amp 43 section code func1 c++function scope cuda

c++ - CUDA 驱动程序 API 和函数处理

我有一个项目需要C++11，所以我将文件分为两类:使用C++11的文件和使用C++03的文件，因此与nvcc编译器兼容。当我有一个不是模板函数的内核时，很容易加载模块并使用cuModuleGetDataEx找到函数名称。但是，当内核是模板时，函数名称在显式特化后会被破坏。这使得在使用CUDA驱动程序API加载模块后很难获得函数的句柄。例如，考虑这个功能。templateglobalvoidvector_add(constT*a,constT*b,T*c,constSizeTypedim){constSizeTypei=blockIdx.x*blockDim.x+threadIdx.x;

amp 驱动 section code strong c++cuda c++11 static-linking name-mangling

c++ - OpenGL 着色器与 CUDA

我正在使用this在我的OpenGL程序中用于抗锯齿的FXAA着色器。现在我在CUDA中重新实现了这段代码并进行了测试。生成的图像是相同的，但CUDA版本要慢得多。(着色器在垂直同步时以60FPS运行，而CUDA下降到约40FPS)这是CUDA代码:__device__uchar4readChar(intx,inty){returnsurf2Dread(surfaceRead,(x)*sizeof(uchar4),(y),cudaBoundaryModeClamp);}__device__uchar4readFloatBilin2(floatx,floaty){intx1=floor(

amp OpenGL float dir uchar4 c++performance cuda glsl

c++ - Qt 的 CUDA 包装器

Qt发布了一个很好的Opencl包装器(QtOpencl)，它在隐藏大量样板方面做得非常好，并使OpenCL与Qt的显示小部件和Opengl很好地配合。但有几件事我可以在Cuda中比OpenCL做得更好，而且Cuda工具更加成熟。制作一个简单的CudaC++包装器并集成到Qt构建过程中相对容易，但我想知道是否有人做了更多的事情？理想情况下是等效的QtCuda库。Qt人员对Cuda支持不感兴趣，因为它不够跨平台编辑:仅供搜索，有一个QtCUDAopenGLPBO的包装器。它基于多布斯博士simplePBOexample.需要修复几个错误才能使其与Cuda4很好地配合使用，但这是一个好的开

amp 包装 section noreferrer nofollow c++qt cuda opencl

104 105 106107108 109 110