PERFORMANCE

c++ - 位压缩结构

我目前正在做一个项目，我需要在vector中存储相当多(约数十亿个单位)的结构。我还需要以线性方式迭代该vector，因此我需要处理的数据越少越好。于是自然而然的开始优化单体结构的尺寸。例如，如果我有多个bool值，我可以将true/false值存储在一个位中，并将所有bool值压缩到一个char/16位中，无论大小是否足够。对于某些条目，我只需要20位无符号整数。因此我可以再次压缩这些值。然后我得到这样的结果(请注意，这只是简化的示例):classFoo{private:uint32_tm_time;uint32_tm_comb;public:Foo(uint32_tt,uint32

amp 43 uint return const c++performance bit-manipulation bit-fields

c++ - 如何对多个Server-Client对使用ZeroMQ？

我正在C++14中利用多线程实现性能很重的两方协议(protocol)，并且当前正在将ZeroMQ用作网络层。该应用程序具有以下简单架构:一个主服务器角色一个主要客户角色服务器和客户端均生成固定数目的线程n所有n并行并发线程对都执行一些性能和通信，但相互之间是互斥的，但互斥的协议(protocol)交换，即它们以n固定对运行，并且不应与成对的固定对手混合/交换任何数据。我当前的设计在Context()和server上都使用单个ZeroMQclient-实例，该实例在所有n-local线程之间共享，并且每个client/server线程对都创建一个ZMQ_PAIR套接字(我只是增加端口号

Server-Client amp code strong br c++performance c++14 zeromq low-latency

c++ - 在字符串c++中查找子字符串的最快方法

这个问题在这里已经有了答案:Whatisthefastestsubstringsearchalgorithm?(17个答案)关闭6年前。我需要在一个字符串中找到多个子字符串。我下载了一个互联网页面并将其放入一个字符串中。然后我要查看页面是否包含一些字符串(子字符串)。现在我在boost库中使用正则表达式，因为我用它来使用正则表达式模式([0-9]等..)。问题是:如果只需要在一个字符串中查找一个子串，哪种方式最快？

amp 43 section notice span c++string performance

c++ - 将 long 转换为 wchar_t *

感谢阅读。我认为我在这方面已经很接近了，但我可以利用一些专业知识来理解为什么我对某事的尝试没有按照我期望的方式进行。我(目前)需要的是将long类型(LONG，因为我实际上是在VC++中，但我知道这只是一个typedef)转换为wchar_t*。我能够获得我想要的结果，但我无法理解为什么我认为应该起作用的方法……不起作用。这是实现我想要的结果的代码:conststd::wstringmyString{std::to_wstring(wRect.bottom)};constwchar_t*myCharPointer{myString.c_str()};与我想采用的方法相比:constwc

amp wchar_t section wstring c++performance visual-c++

c++ - 分配在堆上的数据是否比分配在堆栈上的数据访问速度慢？

我听到过关于这个问题的不同意见。有人说访问分配在堆上的数据(即std::vector或通过malloc分配的动态数组)总是比访问分配在堆栈上的数据慢一点，因为进程必须始终通过中间指针来访问该数据，该数据可能位于完全不同的内存区域；另一方面，他们认为，访问分配在堆栈上的数据不需要通过这个中间指针，而且这些数据很可能已经缓存了。其他人声称只有数据的分配在堆上比在栈上慢(因为malloc、mmap和类似函数的开销)，但是访问是不是，除非堆栈和堆位于不同的物理驱动器上。什么是真相？最佳答案事实(至少在大多数现代cpu上)是堆栈和堆的性能

amp 43 code section 的 c++performance memory

c++ - 具有自动超频功能的多核处理器上的准确 C/C++ 时钟？

我研究了几个主题，试图获得一些关于如何使用C或C++制作可靠时钟的想法。然而，我也看到一些函数使用处理器的滴答声和每秒滴答声来计算最终结果，我认为这可能是像我这样的自动超频CPU上的问题。我也看到其中一个过一段时间就重置了，所以不是很可靠。我们的想法是制作一个(最好是跨平台的)时钟，就像游戏中的时钟一样，精度优于一秒，以便能够将“当前session”中耗时与保存的时间相加在程序结束时。这将计算在没有游戏时钟的主机游戏上花费的时间，并且从长远来看可能会将其集成到实际的PC游戏中。它应该能够在不占用太多或全部CPU时间(或多核CPU的单核时间)的情况下运行，因为将所有这些资源仅用于时钟是非

多核 amp stackoverflow noreferrer questions c++c performance cross-platform clock

c++ - 为什么同样的for循环第二次跑得更快？

最初我是在比较内置D数组和普通指针的性能，但我遇到了一个不同的问题。出于某种原因，如果我一个接一个地运行两个相同的for循环，第二个总是完成得更快。代码如下:importstd.stdio:writeln;importstd.datetime:StopWatch;importcore.stdc.stdlib:malloc,free;voidmain(){immutableN=1_000_000_000;StopWatchsw;uint*ptr=cast(uint*)malloc(uint.sizeof*N);sw.start();for(uinti=0;i使用dmd-release-O

amp 43 code uint for c++performance for-loop d

c++ - std::embed 增加链接时间

我阅读了提案P1040R4std::embed我了解到xxd和bin2c等工具的实际问题在于，它们在实际使用数据时会增加巨大的开销。这正是std::embed在处理大文件时试图解决的问题，我的问题是使用这个提议的功能时会影响多少编译和链接时间？最佳答案由于没有示例实现，因此无法准确判断。但是，没有理由认为它应该比读取文件慢得多。作为近似值，您可以使用ld-r-bbinaryfoo.png-ofoo.o并测量链接结果对象的时间。要访问数据，您将使用符号extern"C"constcharfoo_start;extern"C"con

amp embed code section foo c++performance file linker

c++ - 为什么 `QDateTime`实现隐式共享？

Accordingtothedocumentation隐式共享主要是为了提高性能(避免复制和自动更改时复制)。为什么它是为类QDateTime实现的，显然应该只是少量字节？我想说的是，用于引用计数更新的堆分配和线程同步的成本将大大超过不复制几个字节的小yield。最佳答案简短回答:它更便宜。长答案:Qt是围绕PIMPL设计的图案。创建对象的真实拷贝意味着您必须为PIMPL分配新堆并复制两者。特别是对于小对象，新的分配是相当昂贵的。为了克服这个问题，他们决定为许多甚至是小类(class)实现写时复制。

amp QDateTime section 时复 noreferrer c++performance qt

c++ - 在 C++ 中使用对象时对性能的影响

我有一个用C++编写的Knapsack动态规划算法。当它作为函数实现并访问传递给它的变量时，在特定实例上运行需要22秒。当我使它成为我的类KnapsackInstance的成员函数并让它使用作为该类的数据成员的变量时，它开始需要37秒才能运行。据我所知，只有访问成员函数才会通过vtable，所以我无法解释可能发生的情况。这是函数的代码intKnapsackInstance::dpSolve(){inti;//Currentitemnumberintd;//Currentweightint*tbl;//ArrayofsizeweightLeftinttoret;tbl=newint[we

amp 43 weightLeft int tbl c++performance dynamic-programming compiler-optimization

179 180 181182183 184 185