并行机

c++ - 是否有一个真正有效的示例显示了 x86_64 上 ILP(指令级并行)的好处？

众所周知，CPU是流水线，如果命令序列彼此独立，它的工作效率最高-这称为ILP(指令级并行):http://en.wikipedia.org/wiki/Instruction-level_parallelism但是否有一个真正有效的示例显示ILP的好处，至少是合成示例，对于CPUx86_64(但对于相同数量的cmp/jne在这两种情况下)?我将编写以下示例-将数组的所有元素相加，但它没有显示出ILP的任何优势:http://ideone.com/fork/poWfsm顺序:for(i=0;i国际语言学院:registerunsignedintv0,v1,v2,v3;v0=v1=v2=v

amp 43 000000013 arr strong c++performance optimization assembly x86

c++ - 并行循环中的 Matlab 引擎

我在一段并行代码中使用多个matlab引擎时遇到了一些问题。我可以使用engOpenSingleUse成功生成多个引擎，但无法与多个引擎通信(即调用engPutVariable失败)。一如既往，一个最小的(VS)示例:#include"stdafx.h"#include#includeint_tmain(intargc,_TCHAR*argv[]){//FirstspawnthematlabenginesessionsEngine*m_Engines[2];for(inti=0;i有什么想法吗？我在Winx64上使用MatlabR2012b。最佳答案

amp Matlab section code c++openmp matlab-engine

c++ - 指针在 OpenMP 并行部分中是私有(private)的吗？

我已将OpenMP添加到现有代码库中，以便并行化for循环。在parallelfor区域的范围内创建了几个变量，包括一个指针:#pragmaompparallelforfor(inti=0;imyfunc();lm->anotherfunc();[....]}在生成的输出文件中，我注意到不一致，可能是由竞争条件引起的。我最终通过使用ompcritical解决了竞争条件。不过，我的问题仍然存在:lm是每个线程私有(private)的，还是共享的？最佳答案是的，在OpenMP区域内声明的所有变量都是私有(private)的。这包括指

私有 amp section code size_per_thread c++multithreading parallel-processing openmp

c++ - 为什么并行化会如此显着地降低性能？

我有一个OpenMP程序(数千行，无法在此处重现)，其工作方式如下:它由工作线程和任务队列组成。一个任务由一个卷积组成；每次工作线程从工作队列中弹出一个任务时，它都会执行所需的卷积，并可选择将更多卷积插入队列。(没有特定的“主”线程；所有worker都是平等的。)当我在自己的机器(4-coreHTnon-NUMACorei7)上运行这个程序时，我得到的运行时间是:(#threads:runningtime)1:5374ms2:2830ms3:2147ms4:1723ms5:1379ms6:1281ms7:1217ms8:1179ms这是有道理的。但是，当我在NUMA48核AMDOpte

着地 amp ms 的 section c++multithreading performance parallel-processing

【并行程序设计实践小组作业】并行矩阵求逆代码说明

并行矩阵求逆代码说明1.vector在C++中，vector是一个十分有用的容器。它能够像容器一样存放各种类型的对象，简单地说，vector是一个能够存放任意类型的动态数组，能够增加和压缩数据。vector是同一种类型的对象的集合，每个对象都有一个对应的整数索引值。和string对象一样，标准库将负责管理与存储元素相关的内存。我们把vector称为容器，是因为它可以包含其他对象。一个容器中的所有对象都必须是同一种类型的。向量（vector）是一个封装了动态大小数组的顺序容器（SequenceContainer）。跟任意其它类型容器一样，它能够存放各种类型的对象。可以简单的认为，向量是一个能够存

小组并行 matrix lt input_matrix 矩阵线性代数 c++

c++ - Visual Studio 中的 Cuda 并行代码生成

我在VisualStudio2012解决方案中有几个C++项目。这些项目包含大量文件和我用/MP以加快代码生成速度。我想知道是否有一种方法可以以类似的方式加速NVCC。在包含CUDA内核的项目中使用/MP不会缩短编译时间，而且我只能看到一个内核在工作。所以问题是:如何使用我的多核PC来加速CUDA编译？最佳答案从CUDA5.5开始，nvcc没有与MSVC的/MP等效的功能，因此.cu文件的任何构建并行性都需要来自调用NVCC的构建工具。如果您可以使用GNUMake构建(例如，在Cygwin下或在Linux/Unix/OSX系统上

amp Visual section noreferrer noopener c++visual-studio compilation cuda compilation-time

c++ - OpenMP - 在并行代码中运行并行代码

我有一个函数compute()，它内部使用OpenMP进行了并行矩阵乘法#pragmaompparallelfor此函数在循环中被调用多次-我想并行运行。在其他并行代码中运行并行代码会不会有任何问题？这是在Ubuntu上编译的c++。最佳答案它可以正常工作，但您需要启用OpenMP嵌套才能工作。打电话omp_set_nested(1);在程序的开头，它允许您拥有嵌套的并行区域。但是:请注意，您最终可能会运行比您想要的更多的线程。因此，您需要限制顶部和内部并行区域的线程数。关于c++

中运 amp section code c++parallel-processing openmp

c# - C#/C++ 中的同步并行进程

我有一个包含数据的数组x[]。还有一组“系统状态”c[]。过程:for(i=1;i有没有什么有效的方法可以在使用2个并行线程的2核系统上找到f1和f2的值？我的意思是(伪代码):thread_1{for(i=1;if1和f2并不耗时，但需要计算很多次，所以期望的加速比大约是x2。请参阅图形表示图:寻找适用于Windows的代码示例。最佳答案如果我没理解错的话，a[i]只有在c[i-1]可用时才能计算b[i]只有在c[i-1]可用时才能计算c[i]仅在计算a[i]和b[i]时可用这意味着您唯一可以单独执行的过程是计算a[i]和b[

c#amp code section li c++multithreading parallel-processing synchronous

c++ - 如何使用 Eclipse/CDT 并行构建项目(不是并行编译!)

我有几个项目都依赖于一个基本库。现在，当我更改此基本库中的头文件时，我必须重建所有相关项目。目前Eclipse/CDT构建了一个又一个项目。如何并行构建所有这些项目？请注意，我已经为每个项目使用了-j(并行编译)选项。但这还不够，因为:确实有很多CPU可用(对于大多数项目来说比源文件多)并且由于并行编译，链接比编译花费的时间多并且(据我所知)不能使用多线程。最佳答案我不认为当前版本的EclipseCDT可以并行构建项目，但您可以通过构建多个二进制文件(库和可执行文件)的EclipseCDTMakefile项目来实现相同的效果。生

amp Eclipse section noreferrer c++eclipse-cdt

c++ - 我可以在 MPI 并行代码中抛出异常吗？

这些是我在为应该使用MPI(在C++中)并行运行的算法设计错误处理时遇到的一些一般性问题:异常是否在并行执行的代码中起作用？行为是否已定义？它们是如何工作的？不同的实现方式是否有所不同？这是好的做法-还是我应该使用返回码？最佳答案在理想情况下，您可以使用它们来完成您的要求。我所说的“理想世界”是指您可以选择MPI实现并能够自己管理它(而不是说服集群所有者为您重新配置它)。异常的最小配置将包括:--with-exceptions标志，可能还有一些。我最常使用LAM，默认情况下禁用异常。我相信这也是其他实现的默认设置。它们的工作方式

amp 43 section C++MPI c++exception parallel-processing

95 96 979899 100 101