thrust

c++ - 如何使用 CUDA/Thrust 根据其中一个数组中的值对两个数组/vector 进行排序

这是一个关于编程的概念性问题。总而言之，我有两个数组/vector，我需要对一个数组/vector进行排序，其中的变化也在另一个数组中传播，因此如果我对arrayOne进行排序，对于排序中的每个交换-同样的事情也会发生在arrayTwo上。现在，我知道std::sort允许您定义一个比较函数(对于我假设的自定义对象)，我正在考虑定义一个以同时交换arrayTwo。所以我想要的是-使用CUDA根据其中一个vector中的值对两个vector进行排序。这就是我的不确定性上升的地方，基本上我想使用Thrust库来进行排序。它是否支持自定义比较函数的定义？如果是这样，我仍然没有弄清楚如何在ar

c++ - thrust::tuple in reduction 的自定义最小运算符

我正在尝试对zip迭代器进行最小缩减，但使用自定义运算符仅考虑元组中的第二个字段(第一个字段是键，而第二个字段是值)实际上与减少有关)但是，我无法让它工作，目前正在计算vector中存在的结果下面的代码重现了这个问题:#include#include#include#includetypedefthrust::tupleDereferencedIteratorTuple;structtuple_snd_min{__host____device__booloperator()(constDereferencedIteratorTuple&lhs,constDereferencedIter

自定运算符 thrust DereferencedIteratorTuple unsigned c++cuda

c++ - 将 OpenMP 与 C++ 结合使用的算法库

我在GNU/Linux桌面上使用C++编程语言和GCC。我正在努力实现C++中的一些PRAM并行算法。据我了解，在多核CPU上使用OpenMP或多或少有助于模拟CREWPRAM算法。许多复杂的PRAM算法，涉及并行前缀和、排序等操作，对全局地址空间等中的vector执行元素明智的操作。不知何故，在谷歌搜索大约15分钟后，似乎没有提供此功能的库，即一些开箱即用的基本并行算法或数据结构，如标准模板库。谁能列出任何这样的库？编辑:本质上，我需要的是一个类似于ThrustLibrary的OpenMP，它用于CUDA世界。http://thrust.github.com/

法库 amp 多核 section C++c++multithreading parallel-processing openmp thrust

c++ - CUDA 推力 : copy from device to device

我使用标准CUDAmalloc在CUDA中分配了一个内存数组，并将其传递给函数，如下所示:voidMyClass::run(uchar4*input_data)我还有一个类成员，它是一个推力device_ptr声明为:thrust::device_ptrdata=thrust::device_malloc这里的num_pts是数组中值的个数，input_data指针保证是num_pts长。现在，我想将输入数组复制到thrust_device_ptr中。我看过推力文档，其中很多都在谈论从设备复制到主机内存，反之亦然。我想知道在推力上执行此设备到设备复制的最佳性能最佳方式是什么，还是我应该

device 推力 thrust code c++cuda gpgpu

c++ - 在 CUDA/Thrust 中，如何在 for-each 操作期间访问 vector 元素的邻居？

我正在尝试使用CUDA中的Thrust库进行一些科学模拟，但我陷入了以下操作，这基本上是一个for-each循环:device_vectorIn(N);for-eachIn(x)inInOut(x)=some_calculation(In(x-1),In(x),In(x+1));end我已经查阅了stackoverflow.com并找到了一些类似的问题:Similarquestions1但似乎只有当some_calculation函数在2个参数之间完成时才可能使用变换迭代器，因为变换迭代器最多传递两个参数。那么，对于问题2:Similarquestions2讨论就这么结束了，还没有得出

何在 amp thrust float lt c++cuda

c++ - 停止与推力一起使用的 odeint 集成

我正在尝试将ODE系统与odeint库集成，并在一组点上并行推进(这意味着具有许多不同初始条件的相同ODE)。特别是我正在使用自适应步长算法runge_kutta_dopri5。算法在某些点上失败，减少了步长并极大地减慢了整个集成过程。是否有一种方法可以仅针对未通过特定测试的集合中的某些点停止集成过程？在我的特殊情况下，因为我正在整合重力问题，所以我想在点接近吸引子时停止积分，因此距离小于某个限制。在串行计算中，我认为这可以通过使用stepper.try_step函数的自定义while循环来执行，正如thisquestion背后的想法或多或少所说明的那样.这如何在具有推力的并行计算中执

推力 amp value_type type value c++thrust differential-equations odeint

c++ - 是否有与 Thrust(GPU 的并行 STL)类似的库，但用于 GPGPU AMD Radeon？

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的，因为它们往往会吸引自以为是的答案和垃圾邮件。相反，describetheproblem以及迄今为止为解决该问题所做的工作。关闭9年前。Improvethisquestion是否有类似Thrust的库(用于GPU的并行STL，可以使用OpenMP/TBB，C++CUDA)，但用于GPGPUAMDRadeon(例如使用OpenCL而不是使用CUDA)？所需的标准STL算法(排序、合并、删除/复制、In/Exc

amp Thrust section class notice c++stl opencl gpgpu

c++ - CUB (CUDA UnBound) 相当于 thrust::gather

由于Thrust库存在一些性能问题(有关详细信息，请参阅thispage)，我计划重构一个CUDA应用程序以使用CUB而不是Thrust。具体来说，就是替换thrust::sort_by_key和thrust::inclusive_scan调用)。在我的应用程序的特定点上，我需要按键对3个数组进行排序。这就是我用推力做到这一点的方式:thrust::sort_by_key(key_iter,key_iter+numKeys,indices);thrust::gather_wrapper(indices,indices+numKeys,thrust::make_zip_iterator(

amp 相当 code thrust gather c++cuda parallel-processing gpu

c++ - nVidia 推力 : device_ptr Const-Correctness

在我广泛使用nVidiaCUDA的项目中，我有时会使用Thrust来做它做得非常非常好的事情。Reduce是一种在该库中实现得特别好的算法，reduce的一个用途是通过将每个元素除以所有元素的总和来规范化非负元素的vector元素。templatevoidnormalise(Tconst*constd_input,constunsignedintsize,T*d_output){constthrust::device_ptrX=thrust::device_pointer_cast(const_cast(d_input));Tsum=thrust::reduce(X,X+size);t

推力 Const-Correctness code const thrust c++cuda

c++ - 如何优化 VBO/IBO 以最大化 GPU 缓存使用

我正在使用在CUDA上运行的MarchingCubes算法从体积数据生成网格。我尝试过保存网格并以3种方式渲染它。将一组粗略的三角形保存为连续的顶点数据数组。如果第一次通过，我估计大小，创建一个OpenGLVBO，将其映射到CUDA并按照以下格式将顶点数据写入其中V0x,V0y,V0z,N0x,N0y,N0z,V1x,V1y,V1z,N1x,N1y,N1z,...并使用glDrawArrays()绘制它。RedundantVerticesinVBO,RedundantVerticesperCube,NoIndices.从步骤1中获取网格，使用thrust::sort()和thrust:

最大化 amp code section blockquote c++opengl cuda thrust

12 3