PERFORMANCE

c++ - MPI - 随着进程数量的增加没有加速

我正在编写程序来测试数字是否为素数。一开始我计算分配给每个进程的数字，然后将这个数量发送给进程。接下来，执行计算并将数据发送回保存结果的进程0。下面的代码有效，但是当我增加进程数时，我的程序不会加速。在我看来，我的程序不能并行运行。怎么了？这是我在MPI的第一个项目，因此欢迎任何建议。我使用mpich2，并在IntelCorei7-950上测试我的程序。主要.cpp:if(rank==0){intworkers=(size-1);readFromFile(path);intelements_per_proc=(N+(workers-1))/workers;intrest=N%eleme

amp 43 MPI MPI_COMM_WORLD int c++performance

c++ - C/C++ : What's faster: a for loop, 或递增指针

我想知道以下哪个代码段最快，假设目标是从T类型的元素中读取数量为numElements的somePointer并用它们做一些事情。我特别感兴趣的是循环结构本身的效率，而不是对元素所做的事情。第一候选人for(inti=0;i第二个候选人T*tempPointer=somePointer;T*endPointer=somePointer+numElements;while(tempPointer当然，第一个候选人更清晰，更不容易出错。但是，如果它实际上被编译成它似乎会生成的代码，我认为它会更慢。使用for循环需要在每次循环迭代时增加i，以及从somePointer指向的地址偏移>i*si

amp 43 code 的 section c++c performance loops pointers

c++ - 计算机视觉算法的 CUDA 性能

我正在CUDAC编程世界迈出我的第一步!作为第一个测试，我编写了简单的算法来对图像进行灰度转换和阈值处理(我是计算机视觉和OpenCV的粉丝!)。我决定将我的CUDA性能结果与CPU上的类似算法以及相应的OpenCV(cpu)函数进行比较。这是全高清视频的结果:FrameCount:4754FrameResolution:1920x1080TotaltimeCPU:67418.6msFrameAvgCPU:14.1814msFrameCount:4754FrameResolution:1920x1080TotaltimeOpenCV:23805.3msFrameAvgOpenCV:5.

amp 43 lt us Frame c++c performance opencv cuda

c++ - while 循环完成一个循环但需要很长时间才能开始下一个循环

我正在使用C++编程并在优化领域实现大规模算法。我有一个巨大的while循环，里面有很多东西。循环的条件只是比较两个整数a和b。我报告时间分两点:1-当程序到达while循环的末尾时。2-当程序在while循环开始时。代码如下while(a当程序到达循环末尾时，需要很长时间才能返回到循环开头，即对于大型输入实例，可能需要大约20分钟。需要强调的是，循环内的所有操作都被执行并报告了时间，这20分钟只是让程序回到循环开始的时间。我想知道这段时间花在了什么上，我怎样才能减少它？感谢任何帮助。附言循环中的点表示代码的secret部分，不能共享。最佳答案

长时 amp the lt time c++performance loops while-loop

c++ io streams sync_with_stdio 没有区别

出于某种原因，我无法使我的输出流使用该行运行得更快std::ios_base::sync_with_stdio(false);包含在我程序的开头。我正在用这两个程序对此进行测试:#includeintmain(){for(inti=0;i和#includeintmain(){std::ios_base::sync_with_stdio(false);for(inti=0;i每个程序的运行时间如下第一次测试(同步)real0m1.095suser0m0.472ssys0m0.299ssecond_test(关闭同步)real0m1.091suser0m0.471ssys0m0.299s我

sync_with_stdio amp code section c++performance iostream

c++ - C++ 中带线程的时钟函数

这里有一个非常有趣的注释:http://en.cppreference.com/w/cpp/chrono/c/clock“只有对std::clock的不同调用返回的两个值之间的差异才有意义，因为std::clock时代的开始不必与程序的开始重合。std::clock时间可能比挂钟前进得更快或更慢，这取决于操作系统给程序的执行资源。例如，如果CPU被其他进程共享，std::clock时间可能前进得比挂钟慢。另一方面，如果当前进程是多线程的并且有多个执行核心可用，则std::clock时间可能比挂钟前进得更快。”为什么时钟会随着多线程而加快？我正在检查使用线程与不使用线程的C++程序的性能

amp 中带挂钟进得 section c++multithreading performance clock

c++ - 矩阵 vector 乘法优化 - 缓存大小

这个问题是关于C++优化技术的。我有一个大尺寸的矩阵vector乘法，想减少运行时间。我知道有专门的线性代数库，但我实际上想了解一下底层处理器的特性。到目前为止，我正在使用\O2(Microsoft)进行编译，并让编译器确认乘法的内部循环是矢量化的。示例代码是:#include#include#include#defineVEC_LENGTH64#defineITERATIONS4000000voidgen_vector_matrix_multiplication(double*vec_result,double*vec_a,double*matrix_B,unsignedintcol

amp vector code double VEC_LENGTH c++performance optimization matrix

c++ - 固定大小数组与 alloca(或 VLA)

alloca()何时比通过声明固定大小的数组在堆栈上分配内存更可取？详细信息:众所周知，alloca()是一个有争议的函数。使用不当，会导致堆栈溢出。如果使用得当，它可以通过避免堆分配从紧密循环中缩短几纳秒。在thisquestion关于为什么alloca被认为是不好的，一些HitTest门的答案提倡偶尔使用alloca。另一种从堆栈分配的方法是简单地声明一个固定大小的数组。在HowardHinnant'sstackallocator中的arena类中可以找到此策略的示例。.(该代码当然是C++，但该概念仍然适用于C。)使用alloca与固定大小数组的权衡是什么？什么时候，如果有的话，

amp alloca code mem c++c performance

c++ - regex_match (""8 秒，regex (".{40000}"));?

更新2:实际上是regex(".{40000}");。仅此一项就已经花费了那么多时间。为什么？regex_match("",regex(".{40000}"));在我的PC上花费将近8秒。为什么？难道我做错了什么？我在i7-6700上的Windows10上使用来自MinGW的gcc4.9.3。这是一个完整的测试程序:#include#include#includeusingnamespacestd;intmain(){clock_tt=clock();regex_match("",regex(".{40000}"));cout我如何编译和运行它:C:\Users\...\coding>

amp regex code strong c++performance

c++ - 在图形应用程序中，为什么着色器会在运行时加载到应用程序中？

用例如GLSL编写的着色器通常在运行时加载到图形应用程序中。我想知道为什么不只用着色器编译应用程序，这样以后就不必加载它们了。像这样:#defineglsl(version,glsl)"#version"#version"\n"#glslnamespaceglsl{namespacevs{//VERTEXSHADERS//=========================//simpleVS//=========================constexprGLchar*constsimple=glsl(450core,layout(location=0)invec3positio

amp 43 section glsl simple c++performance opengl shader

181 182 183184185 186 187