SSE

c++ - AVX、SSE 总和比 gcc 自动向量化慢

我有一个奇怪的现象，无法真正解释。我正在尝试编写一些数字代码，从而对一些实现进行基准测试。我只是想用SSE和AVX以及gcc自动矢量化来对一些vector加法进行基准测试。为了测试这一点，我使用并修改了下面的代码。代码:#include#include#include"../../time/timer.hpp"voidser(double*a,double*b,double*res,intsize){for(inti(0);i对于计时和计算的GFLOP/S，我得到:./test3AVX1892ms0.338266GFLOP/sSSE408ms1.56863GFLOP/sSER396ms

amp 43 double lt section c++gcc vectorization sse avx

c++ - 为什么两个连续的收集指令比等效的基本操作执行得更差？

我正在将一些代码从SSE升级到AVX2。总的来说，我可以看到收集指令非常有用并且有利于性能。然而，我遇到了这样一种情况，即收集指令的效率低于将收集操作分解为更简单的操作。在下面的代码中，我有一个int32vectorb，一个doublexivector和4个int32索引封装在一个128位寄存器bidx。我需要先从vectorb收集，而不是从vectorxi收集。即，在伪代码中，我需要做:__m128ii=b[idx];__m256dx=xi[i];在下面的函数中，我使用#ifdef以两种方式实现:通过收集指令，产生290Miter/sec的吞吐量，以及通过基本操作，产生325Mite

等效 amp code 128 section c++performance vectorization sse avx2

c++ - vector 的数据如何对齐？

如果我想用SSE处理std::vector中的数据，我需要16字节对齐。我怎样才能做到这一点？我需要编写自己的分配器吗？或者默认分配器是否已经与16字节边界对齐？最佳答案 C++标准需要分配函数(malloc()和operatornew())来分配适合任何标准类型的内存。由于这些函数不接收对齐要求作为参数，实际上这意味着所有分配的对齐方式都是相同的，并且是具有最大对齐要求的标准类型，通常是longdouble和/或longlong(参见boostmax_alignunion)。vector指令，例如SSE和AVX，比标准C++分配

amp vector code section include c++sse memory-alignment allocator

c++ - float4::set_wxy(和其他 set-swizzle 操作)的更好 SSE2 实现？

我正在使用SSE2/AVX内在函数在C++中编写HLSLfloat4兼容类型，目前我正在HLSL中实现所有可用于float4的set-swizzle操作。我正在尝试找出一个最佳的SSE2实现来处理涉及(swizzle)设置2或3个组件的set-swizzle操作(因为4-componentset-swizzles使用一个SSEshuffleop来实现是微不足道的)。例如，如果没有至少4/5SSEshuffle操作，我想不出更好的方法来实现set_wxy，例如:inline/__forceinlinevoidfloat4::set_wxy(constfloat4&x){float4tmp

set-swizzle amp mm_shuffle_ps shuffle section c++sse simd intrinsics sse2

c++ - 英特尔 C++ 编译器 ICC 似乎忽略了 SSE/AVX 设置

我最近下载并安装了适用于Linux的英特尔C++编译器ComposerXE2013，可免费用于非商业开发。http://software.intel.com/en-us/non-commercial-software-development我在Ivy桥系统(具有AVX)上运行。我有两个版本的函数做同样的事情。一个不使用SSE/AVX。另一个版本使用AVX。在GCC中，AVX代码比标量代码快大约四倍。但是，使用IntelC++编译器时性能要差得多。使用GCC我这样编译gccm6.cpp-om6_gcc-O3-mavx-fopenmp-Wall-pedantic使用Intel我这样编译ic

英特 amp time code 256 c++avx icc

c++ - C : x86 Intel Intrinsics usage of _mm_log2_ps() -> error: incompatible type 'int' ?

我正在尝试将log2应用于__m128变量。像这样:#includeintmain(void){__m128two_v={2.0,2.0,2.0,2.0};__m128log2_v=_mm_log2_ps(two_v);//log_2:=log(2)return0;}尝试编译会返回此错误:error:initializing'__m128'withanexpressionofincompatibletype'int'__m128log2_v=_mm_log2_ps(two_v);//log_2:=log(2)^~~~~~~~~~~~~~~~~~~我该如何解决？

amp incompatible section immintrin log c++compiler-errors sse intrinsics sse2

c++ - 新版本的 g++ 的多线程性能下降？

我写了一些C++反向传播代码，我在Ubuntu18.04的i9-9900K上运行。我看到的问题是，使用较新版本的g++，我的多线程性能越来越差。随着新的g++版本，单线程基准测试得到了预期的改进:g++4.8:5437cycles/sg++5.5:5929cycles/sg++6.5:5932cycles/sg++7.4:6117cycles/sg++8.3:6921cycles/s多线程基准测试(8核上14个pthreads)随着新版本显着下降:g++4.8:25456cycles/sg++5.5:17212cycles/sg++6.5:18616cycles/sg++7.4:170

amp 多线 cycles section SSE c++multithreading g++pthreads compiler-optimization

c++ - SSE 类型的容器

我正在尝试将SSE类型存储在STL容器中。我试过这个:#include#includeintmain(){typedefintv4sf__attribute__((vector_size(4*sizeof(float))));v4sfa;//compilesstd::vectorv1;//compiles,butnothingisactuallyallocated//std::vectorv2(10);//compilererror:can’tconvertbetweenvectorvaluesofdifferentsizestd::vectorv(10,a);//Compiles,b

容器 amp section vector c++gcc

c++ - MOVAPS 访问未对齐的地址

出于某种原因，我的一个函数正在调用带有未对齐参数的SSE指令movaps，这会导致崩溃。它发生在函数的第一行，其余部分只是为了发生崩溃，但为了清楚起见被省略了。Vec3fCrashFoo(constVec3f&aVec3,constfloataFloat,constVec2f&aVec2){constVec3fvecNew=Normalize(Vec3f(aVec3.x,aVec3.x,std::max(aVec3.x,0.0f)));//...}这就是我在调试主程序中调用它的方式:int32_tmain(int32_targc,constchar*argv[]){Vec3fvec3{

amp MOVAPS code 00007 rax c++visual-studio-2013 sse memory-alignment disassembly

c++ - MSVC++ 2015 - SSE 编译器错误或程序中的错误/未定义行为？

我在处理SIMD颜色插值函数时遇到了一些奇怪的行为，我将其缩减为一个最小程序。此示例中的SIMD代码不再执行lerp，而是执行从32位颜色到XMM寄存器的解包，然后再返回到32位。在MSVC++2015(更新3)中，在Releasex64模式下，以下代码不会产生正确的结果，但在Debugx64或Release/Debugx86中它可以正常工作。这是空的Win32C++控制台应用程序项目中的唯一代码:#include#include#include#include#include"emmintrin.h"structColor4{uint8_tred;uint8_tgreen;uint8

amp 未定 00007 6743910 code c++visual-c++visual-studio-2015 sse

1 234 5 6