草庐IT

linux - OMP 与 x86_64-w64-mingw32-g++ 交叉编译

我在交叉编译利用openMP库的C++程序时遇到了一些问题。我正在使用LinuxUbuntu12.04LTS。我想获取可在Windows上运行的可执行文件。使用常规g++命令使用OMP编译我的程序没有问题:g++a.cppb.cpp-oOMPres-pg-O3-I./CBLAS/include-L./-lcblas另外,当我在没有OMP的情况下尝试交叉编译时,一切都运行良好:x86_64-w64-mingw32-g++a.cppb.cpp-O3-I./CBLAS/include./CBLAS/cblas_WIN64.a./BLAS/blas_WIN64.a-ores.exe-lgfor

c++ - OpenMP 并行代码与串行代码的输出不同

我不得不更改和扩展我的算法以进行一些信号分析(使用polyfilterbank技术)并且不能使用我的旧OpenMP代码,但是在新代码中结果并不像预期的那样(结果在开始位置与串行运行相比,该数组在某种程度上是不正确的[串行代码显示预期结果])。所以在第一个循环tFFTin中,我有一些FFT数据,我将其与窗口函数相乘。目标是一个线程为每个多相因子运行内部循环。为了避免锁定,我使用了reductionpragma(没有复杂的reduction是标准定义的,所以我使用我的那个,其中每个线程的omp_priv变量都用omp_orig[所以用tFFTin]初始化)。我使用有序pragma的原因是结

c++ - 使用#pragma omp parallel 让程序变慢

我的C++程序大约需要300秒才能运行。在我的程序中,我需要cwis划分我的vector。VS分析器告诉我们这大约需要15%的运行时间。这是代码:templatemyVectorcWisDivide(myVector&vec1,myVector&vec2){try{if(vec1._rows==vec2._rows){myVectorresult(vec1._rows);//#pragmaompparallelforfor(intr=1;r这个函数被调用了很多次。如果我在循环之前使用#pragma...,CPU使用率会保持100%大约350秒。这比按顺序运行程序所花费的时间还多。如果有

c++ - 为什么不编译? (VC++ 2015,#pragma omp flush)

这是一个最小的例子。在VisualC++2015上使用“/openmp”编译。#includevoidmain(){boolfoo=false;#pragmaompflush(foo)std::vectorbar;}我得到:C2146syntaxerror:missing';'beforeidentifier'bar'C2275'std::vector>':illegaluseofthistypeasanexpressionC2065'bar':undeclaredidentifier如果我注释掉#pragma,错误就会消失。如果我将std::vector替换为int,错误就会消失。如

c++ - #pragma omp parallel num_threads 不工作

#include#include#includevoidmain(intargc,int*argv[]){#pragmaompparallelnum_threads(3){inttid=omp_get_thread_num();printf("Helloworldfromthread=%d\n",tid);if(tid==0){intnthreads=omp_get_num_threads();printf("Numberofthreads=%d\n",nthreads);}}}我正在学习OpenMP,我不明白为什么我指定了线程数3,它只执行一个线程?程序输出:Helloworldfr

c++ - 当 num_threads 变化时,OpenMP 并行区域开销增加

我试图在程序的不同部分使用不同数量的线程来实现最大加速。但是,发现使用num_threads子句切换线程数会产生大量开销。我正在寻找对此的解释,因为根据我的理解,线程池应该始终包含给定数量的线程,而不管调用的实际数量是多少。我也在寻找可能的解决方法。谢谢。示例代码:#include#includevoidomp_sum(intntd){ints=0;#pragmaompparallelnum_threads(ntd){inti=omp_get_thread_num();#pragmaompatomics+=i;}}intmain(){intN=100;intNT1=6,NT2=12;d

c++ - OMP threadprivate 对象未被破坏

底线如何确保threadprivate实例被正确销毁?背景回答thisquestion时在VS2013中使用英特尔C++15.0编译器时,我遇到了一个奇怪的问题。当声明一个全局变量threadprivate时,从线程拷贝不会被破坏。我开始寻找强制销毁它们的方法。在this站点,他们说添加OMP屏障应该会有所帮助。它没有(见MCVE)。我尝试将OMP阻塞时间设置为0,这样线程就不会停留在并行区域之后(也没有帮助)。我尝试添加一些延迟主线程的虚拟计算,让其他线程有时间死掉。仍然没有帮助。MCVE:#include#includeclassmyclass{int_n;public:mycla

c++ - 嵌套并行级别的 omp critical 行为

考虑以下场景:函数A创建一层OMP并行区域,每个OMP线程调用函数B,函数B本身包含另一层OMP并行区域。然后,如果在函数B的并行区域内,存在一个OMP临界区域,那么,该区域对于函数A和B创建的所有线程来说是“全局”临界的,还是仅对函数B是局部的?如果B是预构建函数(例如静态或动态链接库)怎么办? 最佳答案 OpenMP中的关键区域具有全局绑定(bind),它们的范围扩展到所有出现的具有相同名称的关键构造(在这方面,所有未命名的构造共享相同的特殊内部名称),无论它们出现在代码中的何处。您可以在OpenMPspecification的

c++ - vector 乘法中的 SIMD 与 OMP

在我的项目中,我必须做几个vector乘法,在double*a-vectors或float*a-vectors上完成。为了加快速度,我想使用SIMD操作或omp。为了获得最快的结果,我写了一个基准程序:#include#include#include#include#include#include#include#defineSIZE32768#defineROUNDS1e5voidmultiply_singular(float*a,float*b,float*d){for(inti=0;i(t2-t1).count();std::cout(t2-t1).count();std::co

c++ - 错误 "undefined reference to omp_get_wtime"

我找不到要在Windows下的GCC(4.8)中链接的库(Vista)。我尝试了-fopenmp-llibgomp-lgomp编译器指令,但没有任何效果。我已经有了带POSIX的GCC(所以如果启用C++11,std::thread可以正常工作)。问题似乎是搜索正确的库并没有提供有用的结果(甚至在GCC/MinGW文档中搜索)。所以基本上我无法得到thisanswer工作(答案声称适用于大多数编译器,但它没有提供有关如何使其工作的额外信息,因此我无法验证它是否真的工作)。最好现在提供额外的信息以使其在大多数系统上运行...... 最佳答案