比

C# 比 C++ 运行得更快？

我和一个friend写了一个加密模块，我们想把它移植到多种语言，这样它就不是特定于平台的加密。最初是用C#编写的，我已经将它移植到C++和Java中。C#和Java都将以大约40MB/s的速度加密，但C++将仅以大约20MB/s的速度加密。为什么C++运行得这么慢？是因为我使用的是VisualC++吗？我可以做些什么来加速我的代码？是否有不同的编译器可以更好地优化C++？我已经尝试过优化代码本身，例如使用x>>3而不是x/8(整数除法)，或者y&63而不是y%64和其他技术。我如何以不同的方式构建项目，以便它在C++中具有更高的性能？编辑:我必须承认我没有研究编译器如何优化代码。我将在

C#amp C++section c++optimization

c++ - AVX、SSE 总和比 gcc 自动向量化慢

我有一个奇怪的现象，无法真正解释。我正在尝试编写一些数字代码，从而对一些实现进行基准测试。我只是想用SSE和AVX以及gcc自动矢量化来对一些vector加法进行基准测试。为了测试这一点，我使用并修改了下面的代码。代码:#include#include#include"../../time/timer.hpp"voidser(double*a,double*b,double*res,intsize){for(inti(0);i对于计时和计算的GFLOP/S，我得到:./test3AVX1892ms0.338266GFLOP/sSSE408ms1.56863GFLOP/sSER396ms

amp 43 double lt section c++gcc vectorization sse avx

c++ - 为什么两个连续的收集指令比等效的基本操作执行得更差？

我正在将一些代码从SSE升级到AVX2。总的来说，我可以看到收集指令非常有用并且有利于性能。然而，我遇到了这样一种情况，即收集指令的效率低于将收集操作分解为更简单的操作。在下面的代码中，我有一个int32vectorb，一个doublexivector和4个int32索引封装在一个128位寄存器bidx。我需要先从vectorb收集，而不是从vectorxi收集。即，在伪代码中，我需要做:__m128ii=b[idx];__m256dx=xi[i];在下面的函数中，我使用#ifdef以两种方式实现:通过收集指令，产生290Miter/sec的吞吐量，以及通过基本操作，产生325Mite

等效 amp code 128 section c++performance vectorization sse avx2

c++ - Windows 8(.1) 比需要多睡 1 毫秒

Windows8.1x64上的休眠总是比需要多持续1毫秒。例如Sleep(1)持续大约2毫秒，Sleep(2)-3等。timeBeginPeriod设置为1。在Windows7按预期工作正常(没有多余的毫秒数)。这种行为是否正常/是否可以修复？#include#include#pragmacomment(lib,"winmm.lib")LARGE_INTEGERFrequency;longlongintGetCurrent(){LARGE_INTEGERcounter;QueryPerformanceCounter(&counter);return(1000000*counter.Qu

毫秒 amp code section NtDelayExecution c++winapi windows-8 windows-8.1

c++ - Arpack++ 稀疏特征求解器比等效的 Matlab eigs() 慢很多倍

我需要在C++程序中计算一个非常大的稀疏对称矩阵的n个最小幅值特征向量。对于我的示例，假设n=30，矩阵为10kx10k，具有大约70k个非零值。在对一些库进行大量研究和试验后，我发现ARPACK++可能是我最好的选择，我按照inthispage的步骤安装了它。.计算是使用以下代码片段进行的://LisanEigenlibrarymatrixL.makeCompressed();ARluSymMatrixA(L.cols(),L.nonZeros(),L.valuePtr(),L.innerIndexPtr(),L.outerIndexPtr(),'U');ARluSymStdEige

amp 等效 C++section ARPACK c++performance eigen sparse-matrix

c++ - 我的归并排序算法使用 OpenMP 时速度较慢，我怎样才能让它比序列化形式更快？

我正在研究并行编程并在排序算法上对其进行测试。我发现最简单的方法是使用OpenMP，因为它提供了一种实现线程的简单方法。我做了一个研究，发现其他人已经这样做了，然后我尝试了一些代码。但是，当我在Linux上使用perfstat-r10-d测试它时，我得到的时间比序列化代码更糟糕(在某些情况下，它是时间的两倍)。我尝试在数组中使用不同数量的元素，我使用的最大值是1.000.000个数字，如果我使用更多，我会收到错误。voidmerge(intaux[],intleft,intmiddle,intright){inttemp[middle-left+1],temp2[right-middl

amp OpenMP middle right supported c++parallel-processing mergesort

c++ - 虚拟 final方法是否比根类中的非虚拟方法更好？

我有一个抽象类，它是类层次结构的根。该根类有一个带有一些简单实现的方法，似乎没有必要随时随地更改该实现。使该方法成为非虚方法很好，但是某些子类可能会意外地重新实现它。在这种情况下，虚拟final方法是更好的解决方案吗？最佳答案如果您决定将该方法声明为virtual...final，您将使所有用户支付虚拟调度的运行时成本，以保护可能意外隐藏基类的函数。由于C++的指导原则之一是“你don'tpayforyoudon't使用”，我认为最好让函数保持非虚函数，如果他们隐藏了功能。关于c+

amp final section noreferrer noopener c++c++11

c++ - 递归函数是否比非递归函数慢

我对数字的阶乘和斐波那契数列(在C++中完成)使用了递归函数，我发现关于阶乘的递归函数运行正常，执行速度与预期相差不大。然而，在斐波那契数列上，它绝对是缓慢的。为什么会这样？递归方法:unsignedlongintfib_num(intn)//ThisisMycode{switch(n){case1:return0;break;case2:return1;break;default:returnfib_num(n-1)+fib_num(n-2);break;}}迭代方法:first=0;second=1for(i=0;i 最佳答案

amp 43 section int code c++recursion

c++ - 什么时候 std::shared_timed_mutex 比 std::mutex 慢，什么时候(不)使用它？

我正在尝试使用this在C++中实现多线程LRU缓存文章作为提示或灵感。它适用于Go，但所需的概念或多或少也存在于C++中。本文建议在散列表和链表周围使用带有共享互斥锁的细粒度锁定。所以我打算用std::unordered_map写一个缓存,std::list并使用std::shared_timed_mutex锁定.我的用例包括几个线程(4-8)使用此缓存作为拼写错误的单词和相应可能的更正的存储。缓存的大小约为10000-100000个项目。但是我在几个地方读到，使用共享互斥锁而不是普通互斥锁几乎没有意义，而且速度更慢，尽管我找不到一些带有数字的真实基准或至少在何时使用和何时不使用的模

mutex shared_timed_mutex code noreferrer c++multithreading c++14

c++ - ReadProcessMemory 比 SharedMemory 上的 memcpy 更快

我正在尝试通过使用共享内存进行通信来改进我的多进程应用程序。我正在用简单的测试做一些分析，结果出现了一些奇怪的东西。当我尝试复制存储在SharedMemory中的数据时，使用ReadProcessMemory比使用Memcopy更快。我知道我不应该那样使用SharedMemory(最好直接在共享内存中读取)，但我仍然想知道为什么会这样。通过进一步调查，另一件事出现了:如果我在同一个共享内存区域(实际上是同一个区域)上执行2个连续的memcpy，则第二个拷贝比第一个快两倍。这是显示问题的示例代码。在这个例子中，只有一个进程，但问题仍然在这里。从共享内存区域执行memcpy比在我自己的进程

ReadProcessMemory SharedMemory lt region bip c++boost

34 35 363738 39 40