我正在编写一个基于 cuda 的程序,需要定期将一组项目从 GPU 传输到主机内存。为了保持进程异步,我希望使用 cuda 的 UMA 在主机内存中有一个内存缓冲区和标志(这样 GPU 和 CPU 都可以访问它)。 GPU 将确保标志已清除,将其项目添加到缓冲区,然后设置标志。 CPU 等待设置标志,从缓冲区中复制内容,然后清除标志。据我所知,这不会产生任何竞争条件,因为它会强制 GPU 和 CPU 轮流,始终读取和写入彼此相对的标志。
到目前为止,我还没有能够让它工作,因为似乎确实存在某种竞争条件。我想出了一个具有类似问题的更简单的示例:
#include <stdio.h>
__global__
void uva_counting_test(int n, int *h_i);
int main() {
int *h_i;
int n;
cudaMallocHost(&h_i, sizeof(int));
*h_i = 0;
n = 2;
uva_counting_test<<<1, 1>>>(n, h_i);
//even numbers
for(int i = 1; i <= n; ++i) {
//wait for a change to odd from gpu
while(*h_i == (2*(i - 1)));
printf("host h_i: %d\n", *h_i);
*h_i = 2*i;
}
return 0;
}
__global__
void uva_counting_test(int n, int *h_i) {
//odd numbers
for(int i = 0; i < n; ++i) {
//wait for a change to even from host
while(*h_i == (2*(i - 1) + 1));
*h_i = 2*i + 1;
}
}
对我来说,这种情况总是在 CPU 发出第一个打印语句后挂起(host h_i: 1)。真正不寻常的事情(这可能是一个线索)是我可以让它在 cuda-gdb 中工作。如果我在 cuda-gdb 中运行它,它会像以前一样挂起。如果我按下 ctrl+C,它将把我带到内核中的 while() 循环行。从那里,令人惊讶的是,我可以告诉它继续并且它会完成。对于 n > 2,它会在每个内核之后再次卡住在内核中的 while() 循环上,但我可以继续使用 ctrl+C 将其向前推进并继续。
如果有更好的方法来完成我正在尝试做的事情,那也会有所帮助。
最佳答案
您描述的是生产者-消费者模型,其中 GPU 正在生成一些数据,而 CPU 会不时地使用这些数据。
实现这一点的最简单方法是让 CPU 成为主控。 CPU 在 GPU 上启动内核,当它准备好使用数据时(即示例中的 while 循环),它与 GPU 同步,从 GPU 复制数据,启动内核再次生成更多数据,并对复制的数据做任何与它有关的事情。这允许您在 CPU 处理前一批处理时让 GPU 填充固定大小的缓冲区(因为有两个拷贝,一个在 GPU 上,一个在 CPU 上)。
这可以通过对数据进行双缓冲来改进,这意味着您可以通过在将另一个缓冲区复制到 CPU 时在缓冲区之间进行乒乓来保持 GPU 100% 的时间忙于生成数据。这假设回写速度比生产速度快,但如果不是这样,那么您将饱和复制带宽,这也很好。
这些都不是您实际描述的内容。您要求的是让 GPU 掌握数据。我强烈建议您谨慎对待这一点,因为您需要仔细管理缓冲区大小,并且需要仔细考虑时间安排和通信问题。这样做当然是可能的,但在探索该方向之前,您应该阅读有关内存栅栏、原子操作和 volatile 的内容。
关于c++ - cuda在gpu和主机之间统一内存,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23423477/
作为我的Rails应用程序的一部分,我编写了一个小导入程序,它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是,与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存,我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关,因为当我删除对LDAP内容的调用时,内存使用情况会很好地稳定下来。此外,不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray,它们都是LDAP库的一部分。当我运行导入时,内存使用量最终达到超过1GB的峰值。如果问题存在,我需要找到一些方法来更正我的代
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
我构建了两个需要相互通信和发送文件的Rails应用程序。例如,一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情,所以我什至不知道从哪里开始。任何帮助,将不胜感激。谢谢! 最佳答案 无论Rails是什么,几乎所有Web应用程序都有您的要求,大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去,网站不应直接访问彼此
我的瘦服务器配置了nginx,我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例,但找不到好的解决方案。有没有人能做到这一点? 最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器,例如server{listen80;server
我已经构建了一些serverspec代码来在多个主机上运行一组测试。问题是当任何测试失败时,测试会在当前主机停止。即使测试失败,我也希望它继续在所有主机上运行。Rakefile:namespace:specdotask:all=>hosts.map{|h|'spec:'+h.split('.')[0]}hosts.eachdo|host|begindesc"Runserverspecto#{host}"RSpec::Core::RakeTask.new(host)do|t|ENV['TARGET_HOST']=hostt.pattern="spec/cfengine3/*_spec.r
在Cooper的书BeginningRuby中,第166页有一个我无法重现的示例。classSongincludeComparableattr_accessor:lengthdef(other)@lengthother.lengthenddefinitialize(song_name,length)@song_name=song_name@length=lengthendenda=Song.new('Rockaroundtheclock',143)b=Song.new('BohemianRhapsody',544)c=Song.new('MinuteWaltz',60)a.betwee
ruby如何管理内存。例如:如果我们在执行过程中采用C程序,则以下是内存模型。类似于这个ruby如何处理内存。C:__________________|||stack|||------------------||||------------------|||||Heap|||||__________________|||data|__________________|text|__________________Ruby:? 最佳答案 Ruby中没有“内存”这样的东西。Class#allocate分配一个对象并返回该对象。这就是程序
我有一个存储主机名的Ruby数组server_names。如果我打印出来,它看起来像这样:["hostname.abc.com","hostname2.abc.com","hostname3.abc.com"]相当标准。我想要做的是获取这些服务器的IP(可能将它们存储在另一个变量中)。看起来IPSocket类可以做到这一点,但我不确定如何使用IPSocket类遍历它。如果它只是尝试像这样打印出IP:server_names.eachdo|name|IPSocket::getaddress(name)pnameend它提示我没有提供服务器名称。这是语法问题还是我没有正确使用类?输出:ge
我正在检查一个Rails项目。在ERubyHTML模板页面上,我看到了这样几行:我不明白为什么不这样写:在这种情况下,||=和ifnil?有什么区别? 最佳答案 在这种特殊情况下没有区别,但可能是出于习惯。每当我看到nil?被使用时,它几乎总是使用不当。在Ruby中,很少有东西在逻辑上是假的,只有文字false和nil是。这意味着像if(!x.nil?)这样的代码几乎总是更好地表示为if(x)除非期望x可能是文字false。我会将其切换为||=false,因为它具有相同的结果,但这在很大程度上取决于偏好。唯一的缺点是赋值会在每次运行
导读:随着叮咚买菜业务的发展,不同的业务场景对数据分析提出了不同的需求,他们希望引入一款实时OLAP数据库,构建一个灵活的多维实时查询和分析的平台,统一数据的接入和查询方案,解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型,最终引入ApacheDoris作为最终的OLAP分析引擎,Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图,在叮咚买菜数十个业务场景中广泛应用。作者|叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月,是一家专注美好食物的创业公司。叮咚买菜专注吃的事业,为满足更多人“想吃什么”而努力,通过美好食材的供应、美好滋味的开发以及美食品牌的孵