草庐IT

并行机

全部标签

c++ - For 循环中的 OpenMP 并行部分 (C++) - 开销

我一直在研究量子模拟。每个时间步计算一个势函数,迭代求解器的一个步骤,然后进行一系列测量。这三个过程很容易并行化,而且我已经确保它们不会相互干扰。此外,还有一些相当简单的事情,但不应该并行完成。设置概要如下所示。omp_set_num_threads(3);#pragmaompparallel{while(notDone){#pragmaompsections{#pragmaompsection{createPotential();}#pragmaompsection{iterateWaveFunction();}#pragmaompsection{takeMeasurements()

AI Infra论文阅读之将流水线并行气泡几乎降到零(附基于Meagtron-LM的ZB-H1开源代码实现解读)

0x0.前言这篇论文对应的链接为:https://openreview.net/pdf?id=tuzTN0eIO5,最近被ICLR2024接收,但不少AIInfra的同行已经发现了这个工作的价值,并且已经开源在https://github.com/sail-sg/zero-bubble-pipeline-parallelism,在一些AIInfra相关的地方也存在一些讨论和介绍。比如https://www.zhihu.com/question/637480969/answer/3354692418所以来解读下这篇论文,此外作者的代码也可以很方便的在Megatron-LM中嵌入,总的来说是一个非

c++ - 待定:并行查找第一个元素

我遇到了这个问题:找到列表中满足给定条件的第一个元素。不幸的是,列表很长(100.000个元素),使用一个线程评估每个元素的条件总共需要大约30秒。有没有办法完全并行化这个问题?我查看了所有的tbb模式,但找不到任何合适的。更新:出于性能原因,我想在找到某个项目时尽早停止并停止处理列表的其余部分。这就是为什么我认为我不能使用parallel_while或parallel_do。 最佳答案 我对库不是很熟悉,但仔细想想,你能不能让一组线程从不同的角度以相同的步幅迭代不同?假设您决定拥有n线程(=内核数或其他),每个线程都应指定一个特定

c++ - 具有 PPL 和并行内存分配的线程 ID

我有一个关于MicrosoftPPL库和一般并行编程的问题。我正在使用FFTW执行大量(100,000)64x64x64FFT和逆FFT。在我当前的实现中,我使用并行for循环并在循环内分配存储数组。我注意到在这些情况下,我的CPU使用率最高仅达到60-70%。(请注意,这仍然比我测试过的FFTW提供的内置线程FFT更好用)。由于我使用的是fftw_malloc,是否可能发生过度锁定而阻止完全使用?鉴于此,在主处理循环之前为每个线程预分配存储数组是否可取,这样循环本身就不需要锁?如果是这样,MSFTPPL库怎么可能呢?我以前一直在使用OpenMP,在这种情况下,使用提供的函数获取线程I

c++ - 使用 Boost::Test 并行代码

我想用boost::unit_test为我的并行(基于mpi)C++代码创建一些测试。我对使用测试框架有一些基本的经验。对我来说,主要的问题是,在使用并行代码时,将MPI::Init放在哪里,以便首先调用它。在我创建的测试套件中没有主要功能。此外,当某些断言在现有等级的子集上失败时,Boost::Test是否正确存在(相对于mpi)? 最佳答案 Boost测试有fixturesupport,它允许您针对每个测试用例、测试套件或全局执行设置/清理。听起来您应该将对MPI::Init的调用放在全局固定装置中。structMPIFixtu

c++ - 并行迭代宏的替代方案?

这将是一个很长的故事,但也许你们中的一些人愿意研究这个案例。我正在从事并行图算法开发。我选择了一个名为STINGER的尖端HPC并行图数据结构。.STINGER的使命声明如下:"STINGERshouldprovideacommonabstractdatastructuresuchthatthelargegraphcommunitycanquicklyleverageeachothers'researchdevelopments.[...] AlgorithmswrittenforSTINGERcaneasilybetranslated/portedbetweenmultiplelan

c++ - 当 num_threads 变化时,OpenMP 并行区域开销增加

我试图在程序的不同部分使用不同数量的线程来实现最大加速。但是,发现使用num_threads子句切换线程数会产生大量开销。我正在寻找对此的解释,因为根据我的理解,线程池应该始终包含给定数量的线程,而不管调用的实际数量是多少。我也在寻找可能的解决方法。谢谢。示例代码:#include#includevoidomp_sum(intntd){ints=0;#pragmaompparallelnum_threads(ntd){inti=omp_get_thread_num();#pragmaompatomics+=i;}}intmain(){intN=100;intNT1=6,NT2=12;d

c++ - "std::map with mutexes"与 "libcds maps (Michael Hashmap and Split Order List)"并行插入、查找、删除之间是否有任何速度测试?

所以我真的很想看到一些并行的速度测试(比如从100到10000个并行线程),其中每个线程至少在3种类型的并发映射上插入、查找、删除-std::map(有一些互斥锁)与libcds(ConcurrentDataStructures)...例如,如果这样的比较尚不存在,请帮助我创建一个。直接相关:LibCds:MichaelHashmapandSplitOrderList假设我们有#include#include#includeclassTestDs{public:virtualboolcontainsKey(intkey)=0;virtualintget(intkey)=0;virtua

c++ - 如何让这个并行求和函数使用 vector 指令?

作为一个业余项目,我正在研究多线程求和算法,在处理足够大的数组时,它的性能优于std::accumulate。首先,我将描述我对此的思考过程,但如果您想直接跳到问题,请随时向下滚动到该部分。我在网上找到了很多并行求和算法,其中大部分采用以下方法:templateTparallel_sum(IT_begin,IT_end,T_init){constautosize=distance(_begin,_end);staticconstauton=thread::hardware_concurrency();if(size>partials;partials.reserve(n);autoch

c++ - 并行 STL 是否处理插入迭代器,例如 std::back_insert_iterator?

并行STL算法是否符合std::back_insert_iterator??我可能误解了std::par和std::par_vec之间的区别,std::par_vec是否意味着输出范围是否需要预先分配?代码示例:autonumbers={1,2,3,4,5,6};autosquared=std::vector{};std::transform(**std::par/std::par_vec,**numbers.begin(),numbers.end(),std::back_inserter(squared),[](autoval){returnval*val;});更新简化问题,因为我