问题我想做的是,如果我有一个27(不是32!)的vectorint8_t:x={0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26}我想首先将它向右循环移位n(不是常数),例如如果n=1:x2={26,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25}然后这个vector被用来做一些非常复杂的计算,但是为了简单起见,我们假设下一步只是将它循环左移n,然后存入内存。所以我应该有一个新的vector27int8_t:
是否有一种固有的或其他有效的方法将AVX寄存器的64位组件的高/低32位组件重新打包到SSE寄存器中?使用AVX2的解决方案是可以的。到目前为止,我正在使用以下代码,但分析器显示它在Ryzen1800X上运行缓慢://Globalconstantconst__m256igHigh32Permute=_mm256_set_epi32(0,0,0,0,7,5,3,1);//...//functioncode__m256ix=/*computedhere*/;const__m128ihigh32=_mm256_castsi256_si128(_mm256_permutevar8x32_epi
你如何使用__m256d?假设我想使用IntelAVX指令_mm256_add_pd在具有3-64位double精度组件(x、y和)的简单Vector3类上z).正确的使用方法是什么?由于x、y和z是Vector3类的成员,_我可以在union中使用__m256d变量声明它们吗?unionVector3{struct{doublex,y,z;};__m256d_register;//theIntelregister?};那我可以走了吗Vector3add(constVector3&o){Vector3result;result._register=_mm256_add_pd(_regi