正如标题所说,与 R 包中使用的已编译和运行 C++ 代码相比,在 R 包中使用带有 Rcpp 的 #pragma omp critical 指令会显着降低执行速度,因为没有使用所有 CPU 能力。
考虑一个简单的 C++ 程序(使用 cmake):
test.h 为:
#ifndef RCPP_TEST_TEST_H
#define RCPP_TEST_TEST_H
#include <limits>
#include <cstdio>
#include <chrono>
#include <iostream>
#include <omp.h>
namespace rcpptest {
class Test {
public:
static unsigned int test();
};
}
#endif //RCPP_TEST_TEST_H
test.cpp中test.h的实现:
#include "test.h"
namespace rcpptest {
unsigned int Test::test() {
omp_set_num_threads(8);
unsigned int x = 0;
std::chrono::steady_clock::time_point begin = std::chrono::steady_clock::now();
#pragma omp parallel for
for (unsigned int i = 0; i < 100000000; ++i) {
#pragma omp critical
++x;
}
std::chrono::steady_clock::time_point end = std::chrono::steady_clock::now();
std::cout << "finished (ms): " << std::chrono::duration_cast<std::chrono::milliseconds>(end - begin).count() <<std::endl;
return x;
}
}
主要是:
#include "src/test.h"
int main() {
unsigned int x = rcpptest::Test::test();
return 0;
}
如果我在 IDE (CLion) 中构建并运行该程序,一切正常。
然后我使用 Rcpp 创建了一个 R 包:
library(Rcpp)
Rcpp.package.skeleton('rcppTestLib')
并使用相同的 C++ 源代码为包 +“Rcpp”文件导出我的测试函数以从 R (rcppTestLib.cpp) 中使用:
#include <Rcpp.h>
#include "test.h"
// [[Rcpp::export]]
void rcppTest() {
rcpptest::Test::test();
}
如果我然后使用包从 R 运行测试
library(rcppTestLib)
rcppTest()
执行速度要慢得多。
我使用编译的 c++ 和 Rcpp 包进行了一些测试,结果是:
program | execution time
-----------------------------
compiled c++ | ~7 200ms
Rcpp package | ~551 000 ms
不同之处在于,使用 Rcpp 包会产生 8 个线程,但每个线程仅使用 ~1% 的 CPU,而使用编译的 C++ 时,8 个线程加起来使用了所有 CPU 能力。
我尝试将 #pragma omp critical 切换为 #pragma omp atomic,结果:
program | execution time
-----------------------------
compiled c++ | ~2 900ms
Rcpp package | ~3 300 ms
使用 #pragma omp atomic Rcpp 包产生 8 个线程并使用所有的 CPU 能力。然而,执行时间仍然存在差异,但并不那么显着。
所以我的问题是:为什么使用 #pragma omp critical R/Rcpp 包不使用所有的 CPU 能力,而使用 #pragma omp atomic 它甚至可以在 CLion 中构建和运行的相同代码在两种情况下都使用了所有 CPU 能力?
我在这里错过了什么?
最佳答案
这里有两个可能的选择:
OpenMP 标志选项尚未在 src/Makevars (unix) 或 src/Makevars.win 中设置(窗)num_threads(x) 作为 critical 推出对于一个,放置在 src/Makevars 或 src/Makevars.win 文件中:
PKG_LIBS = $(LAPACK_LIBS) $(BLAS_LIBS) $(FLIBS) $(SHLIB_OPENMP_CFLAGS)
PKG_CFLAGS = $(SHLIB_OPENMP_CFLAGS)
PKG_CXXFLAGS = $(SHLIB_OPENMP_CXXFLAGS)
详情请见:https://cran.r-project.org/doc/manuals/r-release/R-exts.html#OpenMP-support
关于缺少 num_threads(x)...我已经能够稍微加快这个问题...
改变:
#pragma omp parallel for
到
#pragma omp parallel for num_threads(4)
产量:
之前
finished (ms): 30822
[1] 1e+08
对比
之后
finished (ms): 17979
[1] 1e+08
或大约 1.7 的加速。我的想法是在 cmake 的某个地方设置了一个全局线程选项。
omp_set_num_threads(x)
或
set OMP_NUM_THREADS=x
https://gcc.gnu.org/onlinedocs/libgomp/omp_005fset_005fnum_005fthreads.html
关于c++ - 带有 OpenMP 关键指令的 Rcpp 明显比编译的 C++ 代码慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48949135/
如何在buildr项目中使用Ruby?我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序,我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/),但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻,因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中,它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案 查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has
我的瘦服务器配置了nginx,我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例,但找不到好的解决方案。有没有人能做到这一点? 最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器,例如server{listen80;server
我的主要目标是能够完全理解我正在使用的库/gem。我尝试在Github上从头到尾阅读源代码,但这真的很难。我认为更有趣、更温和的踏脚石就是在使用时阅读每个库/gem方法的源代码。例如,我想知道RubyonRails中的redirect_to方法是如何工作的:如何查找redirect_to方法的源代码?我知道在pry中我可以执行类似show-methodmethod的操作,但我如何才能对Rails框架中的方法执行此操作?您对我如何更好地理解Gem及其API有什么建议吗?仅仅阅读源代码似乎真的很难,尤其是对于框架。谢谢! 最佳答案 Ru
我的假设是moduleAmoduleBendend和moduleA::Bend是一样的。我能够从thisblog找到解决方案,thisSOthread和andthisSOthread.为什么以及什么时候应该更喜欢紧凑语法A::B而不是另一个,因为它显然有一个缺点?我有一种直觉,它可能与性能有关,因为在更多命名空间中查找常量需要更多计算。但是我无法通过对普通类进行基准测试来验证这一点。 最佳答案 这两种写作方法经常被混淆。首先要说的是,据我所知,没有可衡量的性能差异。(在下面的书面示例中不断查找)最明显的区别,可能也是最著名的,是你的
几个月前,我读了一篇关于rubygem的博客文章,它可以通过阅读代码本身来确定编程语言。对于我的生活,我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗? 最佳答案 是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem?,我们在StackOverflow上找到一个类似的问题:
我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态,而无需发出第二个请求。有没有办法用另一种方法做到这一点?我一直在查看文档,但似乎找不到我要找的东西。 最佳答案 在我看来,除非您需要一些真正的低级访问或控制,否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur
我不知道为什么,但是当我设置这个设置时它无法编译设置:static_cache_control,[:public,:max_age=>300]这是我得到的syntaxerror,unexpectedtASSOC,expecting']'(SyntaxError)set:static_cache_control,[:public,:max_age=>300]^我只想将“过期”header设置为css、javaascript和图像文件。谢谢。 最佳答案 我猜您使用的是Ruby1.8.7。Sinatra文档中显示的语法似乎是在Ruby1.
前言作为一名程序员,自己的本质工作就是做程序开发,那么程序开发的时候最直接的体现就是代码,检验一个程序员技术水平的一个核心环节就是开发时候的代码能力。众所周知,程序开发的水平提升是一个循序渐进的过程,每一位程序员都是从“菜鸟”变成“大神”的,所以程序员在程序开发过程中的代码能力也是根据平时开发中的业务实践来积累和提升的。提高代码能力核心要素程序员要想提高自身代码能力,尤其是新晋程序员的代码能力有很大的提升空间的时候,需要针对性的去提高自己的代码能力。提高代码能力其实有几个比较关键的点,只要把握住这些方面,就能很好的、快速的提高自己的一部分代码能力。1、多去阅读开源项目,如有机会可以亲自参与开源
如何将send与+=一起使用?a=20;a.send"+=",10undefinedmethod`+='for20:Fixnuma=20;a+=10=>30 最佳答案 恐怕你不能。+=不是方法,而是语法糖。参见http://www.ruby-doc.org/docs/ProgrammingRuby/html/tut_expressions.html它说Incommonwithmanyotherlanguages,Rubyhasasyntacticshortcut:a=a+2maybewrittenasa+=2.你能做的最好的事情是: