草庐IT

Intrinsics

全部标签

c++ - SSE 内在函数 : masking a float and using bitwise and?

基本上这个问题与x86汇编器有关,您有一个数字,您希望使用and将其设置为零或数字本身。.如果你andnumber为负数你会得到number本身,但如果你and它与零你得到零。现在我在使用SSEinstrinsics时遇到的问题是float在二进制中与double不同(或者我弄错了)。无论如何,这是代码,我尝试使用各种float来掩盖第二个和第三个数字(分别为127.0f和99.0f),但没有成功。#include#includevoidprint_4_bit_num(constchar*label,__m128var){float*val=(float*)&var;printf("%

c++ - 从连续的单词序列中提取任意范围的位的最有效方法是什么?

假设我们有一个std::vector,或任何其他序列容器(有时是双端队列),它存储uint64_t元素。现在,让我们将此vector视为size()*64的序列连续位。我需要找到由给定[begin,end)中的位组成的单词范围,鉴于end-begin所以它适合一个词。我现在的解决方案是找到其部分将构成结果的两个词,并将它们分别屏蔽和组合。因为我需要它尽可能高效,所以我尝试在没有任何if的情况下编写所有代码。分支不会导致分支预测错误,因此例如,当整个范围适合一个词或跨越两个词时,代码在两种情况下都有效,而不采用不同的路径。为此,我需要对这些shiftl进行编码和shiftr函数,除了将单

c++ - 没有 AVX2 的 32 位整数的 SSE 整数 2^n 次幂

我找不到用于计算2^n的SSE指令对于vector__m128i32位整数。是否有执行以下伪代码的指令或函数?__m128ipower_of_two(__m128ib){__m128r;for(inti=0;i_mm_sll_epi32指令只计算r[i]=a[i]. 最佳答案 AVX2之前没有单一指令,但即使只有SSE2,也有一个技巧可以滥用浮点格式来生成2的幂,方法是使用整数算法生成指数字段,然后将其从float转换为整数.可能有更快的选择。__m128ipower_of_two(__m128ib){__m128iexp=_mm_

c++ - 英特尔 Embree 中的这个 union 有什么作用?

这是来自Intel的Embreecode中的vec3fa.h.struct__aligned(16)Vec3fa{typedeffloatScalar;enum{N=3};union{__m128m128;struct{floatx,y,z;union{inta;floatw;};};};//otherstuffinstruct};外union在做什么?内心的结合对我来说更加神秘。代码中从未引用a和w变量。看起来这提供了一种使用适当的别名读取和写入m128、x、y和z的方便且干净的方法。它是如何工作的?int是怎么参与进来的?? 最佳答案

c++ - VS : unexpected optimization behavior with _BitScanReverse64 intrinsic

以下代码在Debug模式下工作正常,因为定义了_BitScanReverse64如果没有设置Bit则返回0。CitingMSDN:(返回值是)“如果设置了索引则为非零,如果未找到设置位则为0。”如果我在Release模式下编译这段代码它仍然有效,但如果我启用编译器优化,例如\O1或\O2索引不为零并且assert()失败。#include#includeusingnamespacestd;intmain(){unsignedlongindex=0;_BitScanReverse64(&index,0x0ull);cout这是预期的行为吗?我正在使用VisualStudioCommuni

c++ - 为什么我的数据似乎没有对齐?

我正在尝试弄清楚如何最好地预先计​​算一些正弦和余弦值,将它们存储在对齐的block中,然后稍后将它们用于SSE计算:在我的程序开始时,我创建了一个包含成员的对象:static__m128*m_sincos;然后我在构造函数中初始化该成员:m_sincos=(__m128*)_aligned_malloc(Bins*sizeof(__m128),16);for(intt=0;t当我去使用m_sincos时,我遇到了三个问题:-数据好像没有对齐movapsxmm0,m_sincos[t]//crashesmovupsxmm0,m_sincos[t]//doesnotcrash-变量好像不

c++ - C++ 编译器能否消除未读取的 volatile 局部变量

比如说,我有这段代码:intf(){volatileintc;c=34;returnabc();}永远不会读取volatileintc。但是它被标记为volatile,编译器能不能完全消除它呢?我在VisualC++2010中的测试显示了相互矛盾的结果。在VC++中,如果我启用优化(最大化速度),则上述函数包含一个名为c的局部变量(通过查看生成的汇编列表)。但是,我没有使用赋值运算符,而是尝试通过编译器内部函数(如memset())初始化变量(并启用使用编译器内部函数),变量被消除。intf(){volatileintc;memset((void*)&c,34,1);returnabc

c++ - 在 AVX 上使用 AVX2/AVX512 内在函数编译 C++ 代码

我的生产代码具有针对各种SIMD指令集(包括AVX、AVX2和AVX512)实现的内核。代码可以在目标机器上为目标机器编译,类似./configure--enable-proc=AVXCXXFLAGS="-mavx"。这在公开AVX内在函数的TravisCI上也很有效。我想至少编译AVX2和AVX512版本,以查看是否所有文件都已checkin。但似乎为不同的ISA编译并不那么容易。一个简单的AVX2测试程序:#includeintmain(intargc,char**argv){__m256da;__m256db;__m256dc;_mm256_fnmadd_pd(a,b,c);}在

c++ - std::AVX 内在函数数组

我不知道我对AVX内在函数如何与std::array一起工作的理解是否遗漏了什么,但是当我将两者结合使用时,我遇到了一个奇怪的Clang问题。示例代码:std::arraygen_data(){std::arrayres;res[0]=_mm256_set1_ps(1);returnres;}voidmain(){autov=gen_data();floata[8];_mm256_storeu_ps(a,v[0]);for(size_ti=0;iClang3.5.0的输出(上面的4个float是垃圾数据):11118.82272e-3905.88148e-390GCC4.8.2/4.9

c++ - Visual Studio 2017 : _mm_load_ps often compiled to movups

我正在查看为我的代码生成的程序集(使用VisualStudio2017)并注意到_mm_load_ps经常(总是?)编译为movups。我使用_mm_load_ps的数据定义如下:structalignas(16)Vector{floatv[4];}//oftenembeddedinotherstructslikethisstructAABB{Vectormin;Vectormax;boolintersection(/*parameters*/)const;}现在,当我使用这个构造时,会发生以下情况://thiscode__mm128bb_min=_mm_load_ps(min.v);