intrinsics_草庐IT

c++ - 从 64 位无符号整数初始化 __m128 类型

_mm_set_epi64和类似的*_epi64指令似乎使用并依赖于__m64类型。我想初始化一个__m128类型的变量，使其高64位为0，低64位设为x，其中x是uint64_t类型(或类似的无符号64位类型)。这样做的“正确”方法是什么？最好，这应该以独立于编译器的方式完成。最佳答案回答有关如何将64位值加载到XMM寄存器的低64位同时将高64位清零的问题_mm_loadl_epi64(&x)willdoexactlywhatyouwant.关于_mm_set_epi64我曾说过，查看AgnerFog的源代码VectorCl

amp 43 code 64 section c++sse intrinsics

c++ - 检查 XMM 寄存器是否全为零

有没有办法检查__m128i变量中的所有位/字节/字等是否为0？在我的应用程序中，我必须检查__m128i变量中的所有整数是否都为零。我是否必须提取它们并分别进行比较？编辑:我现在做的是:intnext=0;do{//somecodenext=idata.m128i_i32[0]+idata.m128i_i32[1]+idata.m128i_i32[2]+idata.m128i_i32[3];}while(next>0);我需要的是检查idata是否全为零，而不必访问每个单独的元素，如果是则退出循环...根据Harold的评论，这是解决方案:__m128iidata=_mm_setr_

寄存 amp code section idata c++sse simd intrinsics

c++ - 检查所有 __m128i 组件是否为 0 的最有效方法 [使用 <= SSE4.1 内在函数]

我正在使用SSE内在函数来确定矩形(由四个int32值定义)是否已更改:__m128ioldRect;//containsoldleft,top,right,bottompackedto128bits__m128inewRect;//containsnewleft,top,right,bottompackedto128bits__m128ixor=_mm_xor_si128(oldRect,newRect);此时，如果矩形未更改，生成的xor值将全为零。那么确定这一点的最有效方法是什么？目前我正在这样做:if(xor.m128i_u64[0]|xor.m128i_u64[1]){//r

amp 内在 code section 128 c++integer sse simd intrinsics

c++ - 使用 AVX 模拟 32 字节的移位

我正在将使用SSE2内在函数编写的矢量化代码迁移到AVX2内在函数。令我非常失望的是，我发现移位指令_mm256_slli_si256和_mm256_srli_si256仅分别对AVX寄存器的两半进行操作，并且在其间引入了零。(这与处理整个SSE寄存器的_mm_slli_si128和_mm_srli_si128形成对比。)你能给我推荐一个简短的替代品吗？更新:_mm256_slli_si256可以通过高效实现_mm256_alignr_epi8(A,_mm256_permute2x128_si256(A,A,_MM_SHUFFLE(0,0,3,0)),N)或_mm256_slli_si

amp 43 256 code MM_SHUFFLE c++simd intrinsics sse2 avx2

redis - redis-cli --intrinsic-latency 中的纳秒不正确

所以我运行这个命令:$redis-cli--intrinsic-latency100...somelines...11386032totalruns(avglatency:8.7827microseconds/87826.91nanosecondsperrun).Worstruntook5064xlongerthantheaveragelatency.此报告中的问题是87826.91纳秒不等于8.7827微秒。正确答案是8782.69纳秒关于版本:$redis-cli-vredis-cli3.0.5$redis-server-vRedisserverv=3.0.5sha=0000000

纳秒 redis section code

ios - 在 NEON float32x4_t 中总结 3 条车道

我正在使用ARMNEON内在函数(llvm、iOS)对内部循环进行矢量化。我通常使用float32x4_t。我的计算结束时需要对该向量中四个float中的三个求和。此时我可以回到Cfloat和vst1q_f32来获取四个值并将我需要的三个值相加。但我认为，如果有一种方法可以在一两条指令中直接使用向量来执行此操作，然后只获取一个channel结果，这可能会更有效，但我无法找出任何明确的路径来执行此操作。我是NEON编程的新手，现有的“文档”非常糟糕。有任何想法吗？谢谢! 最佳答案您应该能够使用VFP单元来完成此类任务。NEON和VF

float NEON code 寄存 section ios arm simd intrinsics

memory - 内在 memcmp

根据thegccdocs,memcmp不是GCC的内在函数。如果您想在gcc下加速glibc的memcmp，则需要使用文档中定义的较低级别的内在函数。但是，在网上搜索时，似乎很多人都认为memcmp是一个内置函数。是否适用于某些编译器而不适用于其他编译器？最佳答案请注意，repzcmpsb例程可能不会比glibc的memcmp快。事实上，在我的测试中，它从来没有更快，即使只比较几个字节。见http://gcc.gnu.org/bugzilla/show_bug.cgi?id=43052

内在 memory section memcmp gcc intrinsics

memory - 内在 memcmp

根据thegccdocs,memcmp不是GCC的内在函数。如果您想在gcc下加速glibc的memcmp，则需要使用文档中定义的较低级别的内在函数。但是，在网上搜索时，似乎很多人都认为memcmp是一个内置函数。是否适用于某些编译器而不适用于其他编译器？最佳答案请注意，repzcmpsb例程可能不会比glibc的memcmp快。事实上，在我的测试中，它从来没有更快，即使只比较几个字节。见http://gcc.gnu.org/bugzilla/show_bug.cgi?id=43052

内在 memory section memcmp gcc intrinsics

c++ - 为什么 SSE 有 128 位加载功能？

我正在查看其他人的代码，目前正试图找出_mm_load_si128存在的原因。基本上，我尝试替换_ra=_mm_load_si128(reinterpret_cast(&cd->data[idx]));与_ra=*reinterpret_cast(&cd->data[idx]);它的工作原理和执行完全相同。我认为加载函数只是为了方便而存在于较小的类型中，这样人们就不必手动将它们打包到连续内存中，但是对于已经按正确顺序排列的数据，何必呢？_mm_load_si128还有其他功能吗？或者它本质上只是一种迂回的赋值方式？最佳答案 SSE

amp 43 code strong 128 c++x86 sse simd intrinsics

c++ - 为什么 SSE 有 128 位加载功能？

我正在查看其他人的代码，目前正试图找出_mm_load_si128存在的原因。基本上，我尝试替换_ra=_mm_load_si128(reinterpret_cast(&cd->data[idx]));与_ra=*reinterpret_cast(&cd->data[idx]);它的工作原理和执行完全相同。我认为加载函数只是为了方便而存在于较小的类型中，这样人们就不必手动将它们打包到连续内存中，但是对于已经按正确顺序排列的数据，何必呢？_mm_load_si128还有其他功能吗？或者它本质上只是一种迂回的赋值方式？最佳答案 SSE

amp 43 code strong 128 c++x86 sse simd intrinsics