PERFORMANCE

c++ - map 性能问题

如果有人可以帮助我，我完全没有想法。所以我有这段代码(这是我的代码的一个非常简化的版本):while(readNewFile()){while(getNewStructFromFile()){unsignedlongstarttime=GetTickCount();customerData.fillFromBinaryData(structPointer);cout(customerData.phoneNumber,""));}//OuptutalldataaMap.clear();}基本上，它只是从二进制文件中读取记录。customerData获取数据并用其中的数据填充其变量。然后，

amp 43 section code map c++performance dictionary

c++ - 与神秘指针相关的多线程速度减慢

背景:所以我正在研究光线追踪器......为了构建空间分区方案，我最初有一些这样的代码:if(msize基本上，这个空间划分树构造完成后，光线遍历树寻找模型，这些模型都存储在一个大数组中。叶节点包含模型的指针数组。然后我意识到，嘿，我没有理由添加额外的间接级别；如果我正确地安排我的模型，我可以让叶节点直接指向大量模型。大数组中彼此相邻的模型都属于给定的叶节点，因此叶节点将包含指向模型的指针。所以我这样做了，并在其他一切保持不变的情况下对其进行了测试。现在人们会认为这显然会加快程序的速度。好吧，它确实加快了单线程版本的速度(大约10%)，但它减慢了多线程版本的速度(大约15%!如果你正在

多线 amp code section models c++performance multithreading optimization pointers

c# - 在 C# 和 C++ 中将 float / double 乘以 0.5 而不是除以 2 是否安全？

基本上是这样的(不是真正的代码):for(inti=0;iv0.pos类型为Vector3,但可能是Vector3.这样做安全吗？:Vector3center=(v0.pos+v1.pos)*0.5;这似乎是不成熟的优化，但它必须尽可能快，以便在数十亿点(点云)上调用。最佳答案无论如何都不是C++专家，但在C#中，这样做:vara=newFunc((floatf1,floatf2)=>(f1+f2)*0.5);varb=newFunc((floatf1,floatf2)=>(f1+f2)/2);在前者中生成IL:加载参数添加它们

c#double code float c++.net performance optimization

c++ - 具有大量并发客户端的慢速 QTcpServer

我正在Qt中编写TCP服务器，它将提供大文件。应用逻辑如下:我继承了QTcpServer并重新实现了incomingConnection(int)在incomingConnection中，我正在创建“Streamer”类的实例“Streamer”正在使用QTcpSocket，它使用来自incomingConnection的setSocketDescriptor初始化当来自客户端的数据到达时，我从readyRead()槽中发回初始响应，然后我将套接字的信号bytesWritten(qint64)连接到Streamer的槽bytesWritten()bytesWritten看起来像这样:S

慢速 QTcpServer li 套接字套接 c++performance qt

c++ - 在哪里为最高效的代码定义一次性常量？

哪种变体最有效，为什么？或者它们会针对相同的代码进行优化吗？charinplace(inti){//[somecheckif0请不要提示过早的优化是多么邪恶，这只是天生的C++人与生俱来的不可抗拒的好奇心;) 最佳答案我刚刚编译和反汇编了你的代码。inplace和inglobals是相同的。这非常直观:编译器可以将常量字符串存储在.rodata部分。奇怪的是，gcc为infunc生成了很多代码(见下文)，这可能是因为您“坚持”要在堆栈上放置s。将s定义为static会使infunc生成与inplace和inglobals相同的代码

amp 43 code section strong c++performance

c++ - 如何访问和管理 block 存储的数据

我想做什么我需要以block形式存储单元格数据，即*cell_member1[cell0]..cell_member1[cellN]...cell_memberM[cell0]..cell_memberM[cellN]*然后我需要有效地访问这些数据，如果可能的话，使用一个好的语法。如果我可以定义要轻松存储的数据，那就太好了，即通过定义一个具有成员的对象作为我想要存储的数据，并将它传递给一些为我做所有事情的“魔法”。动机:为什么我需要这样做？缓存垃圾处理。在某些内部循环中，仅访问对象的某些成员。将一半缓存行浪费在未使用的内存上不是我的应用程序的选择。我可以在指向某个顺序内存区域的对象中存

amp block int maxNoCells strong c++performance design-patterns data-structures iterator

c++ - 将图像从 Haskell 后端交互发送到 Qt QUI 的最佳方法

我正在构建一个由两部分组成的应用程序:QtQuickGUI(C++)和使用repa处理图像的Haskell后端和accelerate包裹。我想在GUI中以交互方式显示图像。我不希望复制数据，而是使用某种共享内存或任何其他机制，这将使我获得最大的性能。在C++GUI中以交互方式“传输”和显示这些图像的最佳方式是什么？我听说了HQK和qtHaskell,但它只支持qtquick到v4.8(我们需要v5.0-v5.2) 最佳答案我不确定Haskell，但在lablqt(我用于构建QtQuick+OCaml应用程序的库，http://ka

amp 送到 strong section C++c++performance qt haskell rpc

c++ - std::nth_element 的 SIMD 实现

我有一个算法可以在我的双核3GHzIntel处理器上平均运行250毫秒，我正在尝试优化它。目前，我有一个std::nth_element在std::vector上调用了大约6,000次的调用s在150到300个元素之间，平均耗时50毫秒。我花了一些时间优化我使用的比较器，它目前查找两个doubles来自vector并执行简单的比较。比较器运行时间的一小部分可以忽略不计std::nth_element.比较器的复制构造函数也很简单。因为这个调用目前占用了我算法20%的时间，而且大部分时间花在了nth_element的代码上。我没有写(即不是比较器)，我想知道是否有人知道优化nth_ele

nth_element amp code section c++performance sse simd stl-algorithm

c++ - 扭曲如何与原子操作一起工作？

warp中的线程在物理上并行运行，所以如果其中一个(称为线程X)启动原子操作，其他线程会做什么？等待？这是否意味着，当线程X被推送到原子队列时，所有线程都将等待，获取访问权限(互斥锁)并使用内存做一些事情，内存受到该互斥锁的保护，然后才是真正的互斥锁？有没有办法让其他线程进行某些工作，比如读取一些内存，这样原子操作会隐藏它的延迟？我的意思是，有15个空闲线程......我猜不太好。Atomic真的很慢，是吗？我怎样才能加速它？有什么模式可以使用它吗？共享内存的原子操作是否锁定银行或整个内存？例如(没有互斥量)，有__shared__floatsmem[256];线程1运行atomicA

amp 43 br code blockquote c++c performance cuda atomic

c++ - 为什么两次比较 char 变量比一次比较 short 变量更快

我认为一次比较一定比两次比较快。但是经过我的测试，我发现在debug模式下shortcompare要快一点，而在release模式下charcompare要快一些。我想知道真正的原因。以下是测试代码和测试结果。我写了两个简单的函数，func1()使用两个字符比较，func2()使用一个短比较。主函数返回临时返回值以避免编译优化忽略我的测试代码。我的编译器是GCC4.7.2，CPUIntel®Xeon®CPUE5-24300@2.20GHz(VM)。inlineintfunc1(unsignedcharword[2]){if(word[0]==0xff&&word[1]==0xff)re

amp short code p2align func c++c performance assembly

198 199 200201202 203 204