gpgpu

c++ - CreateComputeShader 在使用 double 时返回 E_INVALIDARG

我需要使用DirectCompute进行某些GPGPU计算的double。当我把所有东西都变成float时，着色器编译并运行得很好。但是，当我尝试在我的着色器中的任何地方使用double时，它会编译，但在运行时调用ID3D11Device::CreateComputeShader()失败并返回E_INVALIDARG。C++端代码完全相同，请注意，我只是将着色器中的几个变量更改为double。当我使用D3D11_FEATURE_DOUBLES调用ID3D11Device::CheckFeatureSupport()时，它报告我的适配器支持double，它是AMDRadeonR9270x

c++ - 我什么时候可以发布源 PBO？

我正在使用PBO在我的cpu和gpu之间异步移动数据。当从GPU移动时，我知道在PBO上调用glMapBuffer后我可以删除源纹理。但是，反过来呢？我什么时候知道从PBO到纹理(glTexSubImage2D(...,NULL))的传输已经完成并且我可以安全地释放或重新使用PBO？是在我绑定(bind)纹理后还是其他什么时候？最佳答案我认为在调用glTexImage之后，您可以安全地删除或重新使用缓冲区而不会出错，因为驱动程序会为您处理所有事情，包括延迟销毁(这是缓冲区对象的优势)。但这意味着，对glMapBuffer的调用可

amp 43 code section 驱动 c++opengl gpgpu pbo

C++ AMP 迭代具有不同维度的 array_views

我在Windows8上将C++AMP与VisualStudio2012结合使用。我有一个案例，其中我有2Darray_view、experimentData和1Darray_view、experimentFactors。我想遍历2Darray_view的第一个维度和1Darray_view的第一个维度。这就是我所拥有的，但我经常收到错误消息，说没有为此重载。我想遍历第一个维度的numberOfTests。我想要这条线:autotest=experimentData[idx];返回整行数据。我认为array_view上的section方法是执行此操作的方法，但我不知道该怎么做。array

array_views amp code array_view experimentData c++visual-c++visual-studio-2012 gpgpu c++-amp

c++ - 是否有与 Thrust(GPU 的并行 STL)类似的库，但用于 GPGPU AMD Radeon？

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的，因为它们往往会吸引自以为是的答案和垃圾邮件。相反，describetheproblem以及迄今为止为解决该问题所做的工作。关闭9年前。Improvethisquestion是否有类似Thrust的库(用于GPU的并行STL，可以使用OpenMP/TBB，C++CUDA)，但用于GPGPUAMDRadeon(例如使用OpenCL而不是使用CUDA)？所需的标准STL算法(排序、合并、删除/复制、In/Exc

amp Thrust section class notice c++stl opencl gpgpu

c++ - 使用 C++ AMP 处理大型数组(65536+ 个元素)

我在C++AMP中处理大型数组(超过65536个元素)时遇到问题。我正在使用C++amp计算多边形列表的法线、切线和双切线vector。输入由一个位置数组(每个位置3个float)和uv坐标数组(每个顶点2个float)组成。在我的parallel_for_each函数中，我计算法线、切线和双切线(每组3个顶点各1个)。我将这些写回数组(封装在array_view中)。该算法如下所示:concurrency::extentePositions(positionsVector.size()/3,3);concurrency::array_viewpositions(ePositions,

amp 43 concurrency array_view code c++arrays parallel-processing gpgpu c++-amp

c++ - cuda 上的 vector 步长加法较慢

我正在尝试在CUDAC++代码上运行vector步长加法函数，但对于大小为5,000,000的大型float组，它的运行速度也比我的CPU版本慢。以下是我正在谈论的相关CUDA和cpu代码:#defineTHREADS_PER_BLOCK1024typedeffloatreal;__global__voidvectorStepAddKernel2(real*x,real*y,real*z,realalpha,realbeta,intsize,intxstep,intystep,intzstep){inti=blockDim.x*blockIdx.x+threadIdx.x;if(i>>

amp vector real cudaCheckErrors sizeof c++cuda parallel-processing gpu gpgpu

c++ - 不支持外部调用 - CUDA

目标是调用另一个文件中可用的设备函数，当我编译global内核时它显示以下错误*不支持外部调用(发现对_Z6GoldenSectionCUDA的非内联调用)*.有问题的代码(不是完整的代码，而是问题出现的地方)，猫规范.h#ifndefNORM_H_#defineNORM_H_#include__device__doubleinvcdf(doubleprob,doublemean,doublestddev);#endif猫规范.cu#include__device__doubleinvcdf(doubleprob,doublemean,doublestddev){return(mean

不支 amp code double section c++cuda gpgpu nvidia

c++ - 我应该如何设计 GLSL 着色器以在 crossfire/SLI 上运行

如果我正在使用glsl编写可视化工具，我如何保证它会利用更多的gpu？开箱即用，它只能在一张卡上运行，什么样的软件步骤/设计可以让像素着色器在多张卡上并行运行？最佳答案从Jarrod的回答中的评论来看，您遇到的“问题”似乎是AFR模式(交替帧渲染)与SFR模式(拆分帧渲染)，这是驱动程序模式设置问题。在AFR模式下，驱动程序将每个完整帧发送到单个GPU，并将交替帧发送到另一个GPU。这对于您最感兴趣的是最大化帧速率并且不太关心帧延迟的游戏和动画非常有用。以这种方式使用GPU，您几乎可以毫不费力地将SLI的fps速度提高2倍。但是

amp crossfire section GPU 的 c++glsl shader gpgpu sli

c++ - 为什么将内存从 VRAM 复制到 RAM 比从 RAM 复制到 VRAM 慢？ (OpenGL)

我正在创建类似于CUDA的东西，但我看到将内存从RAM复制到VRAM非常快，就像从RAM复制到自身一样。但是从VRAM复制到RAM比从RAM复制到VRAM慢。顺便说一下，我正在使用glTexSubImage2D从RAM复制到VRAM，使用glGetTexImage从VRAM复制到RAM。为什么？有没有办法提高它的性能，比如将RAM复制到VRAM？最佳答案将数据从GPU传输到CPU总是非常缓慢的操作。AGPU->CPUreadbackintroducesa"syncpoint"wheretheCPUmustwaitfortheGP

VRAM amp section the c++opengl gpgpu

c++ - VexCL 中的密集矩阵 vector 乘法

VexCL似乎是一个非常有吸引力的gpu编程库。不幸的是，这是一个非常年轻的图书馆，那里的信息很少。我一直在寻找如何执行矩阵vector乘法，但我发现的唯一矩阵表示是vex::SpMat，它包含一个稀疏矩阵。如果矩阵是稠密的，那么通常情况下，稀疏表示的计算效率较低。我所有的矩阵都是密集的，我想知道如何在VexCL中有效地执行它。最佳答案我是VexCL的开发者图书馆。我不得不承认密集的线性代数运算不在我的优先列表中。我认为很难以一种在VexCL(即OpenCL/CUDA)支持的各种设备之间实现性能可移植的方式来实现它们。此任务可能

amp vector code section c++opencl gpgpu vexcl

123 4 5