PERFORMANCE_草庐IT

c++ - 性能与 C++ 内存模型

利用C++11的新共享内存并发特性，两个线程可以同时分配内存。此外，由于编译器事先不知道编译后的代码是否会同时由多个线程运行，因此它必须假设最坏的情况。因此，我的想法是编译后的代码必须以某种方式同步堆的行程。这会降低不需要同步的单线程代码的速度。这是否与C++格言“您只需为使用的东西付费”形成对比？开销是否小到不被认为是重要的？C++内存模型是否会减慢最终仅用于单线程的代码的其他领域？最佳答案堆管理器确实需要同步，这对于多线程代码来说可能是一个性能问题。如有必要，由程序来减轻这种情况。标准库也在使用react，试图获得更好的多线

amp 43 C++多线 section c++performance c++11 concurrency memory-model

c++ - 使用 TextureArray 优于一组纹理的性能优势？

假设我有nbFramesAnimation*3float4Texture2D我想传递给我的GPU，并且:我不需要在纹理之间进行插值；所有纹理的大小都相同；我不知道它是否相关，但我没有任何mip-maps；我将这些纹理用作G缓冲区，并在其上应用一些后期效果。因此，我可能必须使用索引的非文字表达式来访问它们。此外，因为我将它们用作G-Buffer，所以我必须经常加载它们。他们给我位置和法线信息，需要精确，以及UV+IndexObject(所以实际上只使用了4个float中的3个)。至于现在，在每一帧渲染中，我使用SetResource分别加载三个纹理。它非常慢并且远非实时。我想知道是否:拥

优于 TextureArray Texture2 section Texture c++performance directx-11

c++ - 如果并行执行，磁盘文件操作是否更快？

考虑有N个文件要完全写入磁盘(即从所有文件缓冲区中刷新)。对于每个文件，我们写入少量(相对于HDD寻道时间)数据，例如64KB，使用WriteFile，然后对该文件调用FlushFileBuffers，确保文件的数据完全刷新到硬盘。如果我们按顺序一个接一个地写入和刷新文件，那么我预计大约需要时间N*seekTime+N*writeTime，其中seekTime是将硬盘磁头定位到正确扇区的时间(这可能需要整个磁盘旋转的时间)，而writeTime是磁盘顺序写入64KB的时间数据。使用这种一对一的方法，我们没有为操作系统提供优化空间，因为我们定义了必须刷新文件的顺序。在操作系统的一些支持下

amp 43 code section 的 c++multithreading performance winapi hard-drive

c++ - 为什么 vptr 存储在具有虚函数的类的内存中的第一个条目？

对于一些编译器，如果一个类有虚函数，那么它的vptr可以用它的对象的第一个字节的地址来访问。例如，classBase{public:virtualvoidf(){cout我知道它依赖于不同的编译器行为。由于存在将vptr存储为第一个条目的情况，这样做的好处是什么？这有助于提高性能还是仅仅因为使用&b更容易访问vbtl？最佳答案这是一个实现细节，但实际上很多实现都是这样做的。它相当高效和方便。假设您需要为给定对象调用虚函数。您有一个指向该对象的指针和虚函数索引。您需要以某种方式找到应该使用该索引和该对象调用哪个函数。好的，您只需访

条目 amp section lt vptr c++performance memory-layout compiler-construction

java - 性能优化 : C++ vs Java not performing as expected

我编写了两个程序来实现一个简单的矩阵乘法算法，一个用C++编写，一个用Java编写。与我的预期相反，Java程序的运行速度比C++程序快大约2.5倍。我是C++的新手，希望就我可以在C++程序中进行哪些更改以使其运行更快提出建议。我的程序从这篇博文中借用了代码和数据http://martin-thoma.com/matrix-multiplication-python-java-cpp.以下是我正在使用的当前编译标志:g++-O3main.ccjavacMain.java以下是当前的编译器/运行时版本:$g++--versiong++.exe(GCC)4.8.1Copyright(C)

performing amp C++int width java c++performance optimization

c++ - 分析性能测量中的峰值

我有一组C++函数，可以执行一些与图像处理相关的操作。通常我看到最终输出在5-6毫秒的时间范围内交付。我正在测量使用QueryPerformanceCounterWin32API所花费的时间。但是当以100张图像的连续循环运行时，我发现某些图像的性能峰值高达20毫秒。我的问题是我如何着手分析这些问题。基本上，我想确定尖峰是由于此代码中的某些延迟引起的，还是由于此操作花费了时间而导致某些其他任务开始在CPU内运行。我曾尝试使用GetThreadTimesAPI来查看我的线程在CPU内花费了多少时间，但无法根据这些数字得出结论。对这些类型的问题进行故障排除的标准方法是什么？

峰值 amp section 的 c++performance performance-testing benchmarking

c++ - 令人惊讶的基准测试结果

看完泰特斯·温特斯的"LiveatHead"谈话，他提到StrCat()是人们最喜欢的功能之一，我决定尝试实现类似的东西，看看我是否可以击败std::string::append(或operator+，我认为它在内部使用append)运行时性能。我的理由是，作为可变参数模板实现的strcat()函数将能够确定其所有类似字符串的参数的组合大小，并进行一次分配以存储最终结果，而不必在以下情况下不断重新分配operator+，它不知道调用它的总体上下文。但是，当我在quick-bench上将我的自定义实现与operator+进行比较时，我发现我的strcat()实现比使用-std=c++17

惊讶 amp string strcat const c++performance benchmarking string-concatenation abseil

c++ - 如何在此循环中获得始终如一的高吞吐量？

在优化内部循环的过程中，我遇到了奇怪的性能行为，我无法理解和纠正这些行为。代码的简化版本如下；粗略地说，有一个巨大的数组，分为16个词block，我简单地把每个词block中的前导零的数量加起来。(实际上我使用的是来自DanLuu的popcnt代码，但在这里我选择了一个具有类似性能特征的更简单的指令以“简洁”。DanLuu的代码基于对thisSOquestion的回答。虽然它有非常相似的奇怪结果，但似乎并没有在这里回答我的问题。)//-*-compile-command:"gcc-O3-march=native-Wall-Wextra-std=c99-oclz-timingclz-ti

始终如一何在 code arrays 的 c++c performance caching assembly

c++ - 最近点算法 |如何改进？

我写了一个k-means聚类算法和一个颜色量化算法。它们在结果方面按预期工作，但我想让它们更快。在这两种实现中我都需要解决一个问题:在3D空间中有两个点数组，然后对于第一个数组中的每个点，你需要从第二个数组中找到最近的点。我这样做:size_tclosest_cluster_index;doublex_dif,y_dif,z_dif;doubleold_distance;doublenew_distance;for(autopoint=points.begin();point!=points.end();point++){//FIX//assuggestedbyjuvian//K=1i

amp 改进 distance cluster dif c++algorithm performance optimization graphics

c++ - 从一组最接近直线的点中找到点的最快算法是什么？

我有:-一组已知大小的点(在我的例子中，只有6个点)-以x=s+t*r为特征的线，其中x、s和r是3Dvector我需要找到最接近给定线的点。实际距离对我来说并不重要。我查看了几个看似相关的不同问题(包括this一个)，并知道如何在我的高中数学课上解决这个问题。但是我无法在不计算每个距离的情况下找到解决方案，而且我确信必须有更好/更快的方法。性能在我的应用程序中绝对至关重要。还有一件事:所有数字都是整数(点的坐标以及s和rvector的元素)。同样，出于性能原因，我希望将float学运算保持在最低限度。最佳答案您必须至少处理每个

到点点中 code section stackoverflow c++performance linear-algebra computational-geometry