OPTIMIZATION

c++ - 编译器内联什么调用？

您如何知道编译器会内联或不会内联什么？有时我被告知一些小的优化是没有意义的，因为编译器会内联某些调用或计算，其他时候似乎推荐类似的优化。让我们知道何时需要或不需要优化这些东西的规则是什么？最佳答案查看某个内容是否内联的唯一可靠方法是查看程序集。是否内联某些内容完全取决于编译器-因为编译器最终决定是否内联某些内容。撇开过早的优化:如果它真的很重要(或者如果您只是好奇)，您可以使用特定于编译器的编译指示强制内联/不内联函数，然后适本地分析以查看是否你可以做出比编译器更好的决定。尽管如此，在某些情况下您可以确定无法内联函数:在编译时无

c++ - 定义静态全局数组以避免在函数中定义它

我刚刚开始使用作者声称“高度优化”的代码块。在某些时候他们会这样做:namespacesomename{staticfloatarray[N];}floatSomeclass::some_function(std::vector&input){//usesomename::arrayinsomewayreturnresult;}作者没有将somename::array包含在类中，因为持久性代码存在问题(我们几乎无法控制)。当调用some_function时，该类对数组执行O(N^2)次操作。所以如果我在函数调用中移动array，floatSomeclass::some_function

amp 43 code section array c++optimization static-variables

c++ - MIPS 上 C++ 和汇编代码的微架构分析

作为类(class)项目的一部分，我需要分析一段C++代码的性能，并找出计算机体系结构(MIPS或x86)的哪些部分在运行代码时最常被使用，并且可能是性能瓶颈。我正在查看各种分析器来分析性能并遇到了SimpleScalar这是一个很棒的工具，但遗憾的是只适用于C代码。因为我比较熟悉MIPSarchitecture如果有像SimpleScalar这样的工具来模拟和分析MIPS的C++代码，那就太好了。我正在查看分支、缓存、指令集、寻址模式等性能关键部分。如果没有，提及任何可以对x86架构进行类似分析的工具也很好。(澄清一下，我不是在寻找任何旧的分析器，而是在寻找一个了解CPU微体系结构并

amp 43 section noreferrer noopener c++optimization profiling mips

c++ - 未矢量化 : not suitable for gather D. 32476_34 = *D.32475_33；

我想让编译器自动矢量化我的代码，但我似乎做不到。特别是我通过-ftree-vectorizer-verbose=6从中得到的消息打开的选项是125:未矢量化:不适合收集D.32476_34=*D.32475_33;。现在我的问题是这条消息的全部含义以及这些数字代表什么？下面，我创建了一个简单的测试示例，它会产生相同的消息，所以我认为这些问题是相关的。staticvoidnot_suitable_for_gather(unsignedchar*__restrict__pixels,int*__restrict__indices,intindices_num){for(inti=0;i此外

矢量化 D.pixels code c++optimization

c++ - 迭代任意范围的 n 维数组的最快方法？

在C++中，我希望迭代一个n维数组，其范围分别从min[n]到max[n]，并在整个过程中分别保持ord[n]中的纵坐标。即。通用解决方案:for(intx=0;x形式:intmin[n]{0,3,-2...}intmax[n]{10,20,5...}intord[n]{0,0,0...};intmaxIterations=(max[0]-min[0])*(max[1]-min[1])*....for(intiteration=0;iteration我能想到的iterate()最快的算法是:inlinevoiditerate(intdimensions,int*ordinates,in

amp 最快 code dimension section c++algorithm optimization multidimensional-array n-dimensional

c++ - 为什么 const 类成员必须是静态的才能得到适当的优化？

给定:classFoo{constintx=5;public:inlineintget(){returnx;}};classBar{staticconstintx=5;public:inlineintget(){returnx;}};intfn0(Foo&f){returnf.get();}intfn1(Bar&b){returnb.get();}编译后的输出提供内存获取以读取fn0()中x的值，而添加static结果是文字5被内联到fn1()中。这意味着只有当整数常量为静态时，get()的调用方才可以像使用常量代替get()一样进行优化。我有更复杂的情况，其中static不合适。派生

amp 适当 code int Foo c++optimization constants

c++ - Visual Studio 警告 C4743 : How does Whole Program Optimization affect _fltused?

所以在工作中，我正在开发一个在没有C++运行时库的情况下运行的C++应用程序。我们使用的是VisualStudio2005，并指定了/NODEFAULTLIB开关。解决方案的组织方式包括各种静态库项目，然后是使用这些库的单个可执行项目。这些库大多是在单独的存储库中跟踪的公共(public)库。它们可以更改，但如果我们可以避免的话，最好不要更改。其中一个常用库使用float学。由于我们没有C++运行时，我们自己定义了这些例程(例如:_ftol2_sse用于将float转换为int)。根据我对底层细节的(相当有限的)理解，编译器发出符号_fltused信号，表示需要使用float学例程。出

Optimization amp code section C++c++linker visual-studio-2005

c++ - 使用 -O3 或 -Ofast 来编译基准代码是否现实，或者它会删除代码吗？

当使用-O3编译下面的基准代码时，它在延迟方面的差异给我留下了深刻的印象，所以我开始怀疑编译器是否通过某种方式删除代码来“作弊”。有办法检查吗？我可以安全地使用-O3进行基准测试吗？期望速度提高15倍是否现实？没有-O3的结果:平均:239纳米最小值:230纳米(900万次迭代)-O3的结果:平均:14纳米，最小值:12纳米(900万次迭代)intiterations=stoi(argv[1]);intload=stoi(argv[2]);longlongx=0;for(inti=0;i注意:我正在使用clock_gettime来测量:longget_nano_ts(){structt

amp Ofast code section strong c++optimization g++compiler-optimization compiler-flags

c++ - 用于存储帕累托最优解的高效结构

我正在尝试解决需要在计算过程中存储帕累托最优解的问题。我将一组帕累托最优解称为Bag。到目前为止，我只有两个标准，这允许基于数组的非常有效的解决方案，其中元素根据第一个标准按降序排序，并根据第二个标准按升序排序。这种数组的一个例子是:[(100,0),(50,1),(-10,3)](关于帕累托最优-wiki)但是最近我发现我需要添加第三个标准，对于这样的扩展，上述方法似乎并不适用。我试图用谷歌搜索是否有人已经解决了这个问题，但没有找到令人满意的结果。也许我在问谷歌错误的问题。更准确地说我需要的:能够存储相互非支配的帕累托最优元素的结构。我需要将元素插入到结构中，我需要遍历元素但没有特定

amp 43 code strong 的 c++optimization data-structures

c++ - 矩阵 vector 乘法优化 - 缓存大小

这个问题是关于C++优化技术的。我有一个大尺寸的矩阵vector乘法，想减少运行时间。我知道有专门的线性代数库，但我实际上想了解一下底层处理器的特性。到目前为止，我正在使用\O2(Microsoft)进行编译，并让编译器确认乘法的内部循环是矢量化的。示例代码是:#include#include#include#defineVEC_LENGTH64#defineITERATIONS4000000voidgen_vector_matrix_multiplication(double*vec_result,double*vec_a,double*matrix_B,unsignedintcol

amp vector code double VEC_LENGTH c++performance optimization matrix

44 45 464748 49 50