草庐IT

Intrinsics

全部标签

java - 为什么整数的java除法比黑客的喜悦实现更快

我正在测试hacker'sdelightbook中的divs10函数吞吐量,在我的jdk1.764位版本21和i7intelbox上用java编码处理器:7vendor_id:正版英特尔CPU系列:6型号:26型号名称:Intel(R)Core(TM)i7CPU920@2.67GHz我想知道为什么默认的java运算符/比hacker'sdelightbook中的divs10函数快,结果显示divs10比“/”运算符慢3倍,令我惊讶。任何人都可以告诉我是否有任何奇特的内部jvm可以使用?源代码如下。publicclassdiv10{publicstaticfinalintdivs10(i

c++ - float4::set_wxy(和其他 set-swizzle 操作)的更好 SSE2 实现?

我正在使用SSE2/AVX内在函数在C++中编写HLSLfloat4兼容类型,目前我正在HLSL中实现所有可用于float4的set-swizzle操作。我正在尝试找出一个最佳的SSE2实现来处理涉及(swizzle)设置2或3个组件的set-swizzle操作(因为4-componentset-swizzles使用一个SSEshuffleop来实现是微不足道的)。例如,如果没有至少4/5SSEshuffle操作,我想不出更好的方法来实现set_wxy,例如:inline/__forceinlinevoidfloat4::set_wxy(constfloat4&x){float4tmp

c++ - C : x86 Intel Intrinsics usage of _mm_log2_ps() -> error: incompatible type 'int' ?

我正在尝试将log2应用于__m128变量。像这样:#includeintmain(void){__m128two_v={2.0,2.0,2.0,2.0};__m128log2_v=_mm_log2_ps(two_v);//log_2:=log(2)return0;}尝试编译会返回此错误:error:initializing'__m128'withanexpressionofincompatibletype'int'__m128log2_v=_mm_log2_ps(two_v);//log_2:=log(2)^~~~~~~~~~~~~~~~~~~我该如何解决?

java - cpu的矩阵访问和乘法优化

我正在用java(在JNI的帮助下)制作一些内在优化的矩阵包装器。需要确认这一点,你能给出一些关于矩阵优化的提示吗?我要实现的是:矩阵可以表示为四组缓冲区/数组,一组用于水平访问,一组用于垂直访问,一组用于对角线访问和一个命令缓冲区,仅在需要时计算矩阵元素。这是一个例子。Matrixsignature:0123456789133529First(hroizontal)set:horSet[0]={0,1,2,3}horSet[1]={4,5,6,7}horSet[2]={8,9,1,3}horSet[3]={3,5,2,9}Second(vertical)set:verSet[0]={

c++ - 临时/"non-addressable"固定大小数组?

标题没有更好的名字,我不确定我是否能够足够清楚地解释自己。我正在寻找一种通过索引访问“数据类型”的方法,但不强制编译器将其保存在数组中。问题发生在编写基于SSE/AVX内在函数的低级代码时。为了便于编程,我想编写如下代码,在“寄存器”(数据类型__m512)上使用固定长度循环:inlinevoidload(__m512*vector,constfloat*in){for(inti=0;ivector1和vector2被定义为数组的事实对编译器来说似乎很麻烦(在我的例子中是icc):看起来被迫使其“可寻址”,将其保存在堆栈中,从而生成大量我不需要的load和store指令。据我所知,这是

c++ - _InterlockedCompareExchange 文档中 "The sign is ignored"的含义

_InterlockedCompareExchange的文档对每个参数说Thesignisignored.这是否意味着像0xffff和0x7fff(对于16位版本)这样的数字将被_InterlockedCompareExchange16等视为相等其他宽度内在函数?或者这是否意味着内在函数接受有符号和无符号整数?还是别的?如果这不是文档中的错误,它至少看起来是模棱两可的。 最佳答案 符号位不会被忽略,就像其他位一样进行比较。..CompareExchange..函数只关心位的相等性,不以任何特殊方式解释它们。在基于x86的系统上,它们

c++ - AVX2 根据条件将连续元素扩展为稀疏 vector ? (如 AVX512 VPEXPANDD)

有谁知道如何向量化以下代码?uint32_tr[8];uint16_t*ptr;for(intj=0;j这基本上是一个屏蔽的收集操作。自动矢量化器无法处理这个问题。如果ptr是一个uint32_t*它应该可以直接用_mm256_mask_i32gather_epi32实现.但即便如此,你如何生成正确的索引vector?并且无论如何只使用打包加载并洗牌结果(需要类似的索引vector)会不会更快? 最佳答案 更新答案:主要代码段已重写为函数和解决方案添加了适用于AMD处理器的内容。正如PeterCordes在评论中提到的,AVX-51

c++ - 编译器为内部函数生成程序集的问题

我正在使用英特尔SSE/AVX/FMA内在函数为某些数学函数实现完美的内联SSE/AVX指令。给定以下代码#include#includeautostd_fma(floatx,floaty,floatz){returnstd::fma(x,y,z);}float_fma(floatx,floaty,floatz){_mm_store_ss(&x,_mm_fmadd_ss(_mm_load_ss(&x),_mm_load_ss(&y),_mm_load_ss(&z)));returnx;}float_sqrt(floatx){_mm_store_ss(&x,_mm_sqrt_ss(_mm

具有内在函数的条件代码的 C++ 矢量化

我尝试启用常用函数的矢量化以提高性能。该算法应执行以下操作并被调用~4.000.000次!Input:double*cellvalueOutput:int8*Output(8bitinteger,c++char)算法:if(cellvalue>upper_threshold)*output=1;elseif(cellvalue我的第一个并行计算2个double的矢量化方法如下所示:__m128dlowerThresh=_mm_set1_pd(m_lowerThreshold);__m128dupperThresh=_mm_set1_pd(m_upperThreshold);__m128

c++ - constexpr 求值分支/constexpr 重载

设置:我有一个使用SIMD内部函数的函数,我想在一些constexpr函数中使用它。为此,我需要将其设为constexpr。但是,SIMD内在函数没有标记为constexpr,编译器的常量求值器无法处理它们。我尝试用执行相同操作的C++constexpr实现替换SIMD内在函数。该函数在运行时变慢了3.5倍,但我能够在编译时使用它(是吗?)。问题:如何在常量表达式中使用这个函数而不减慢我的程序在运行时的速度?一些想法:为编译器常量表达式求值器添加对所有SIMD内在函数的常量求值支持,适用于所有编译器:可能是正确的解决方案,但却是一项不可能完成的艰巨任务。更务实的解决方案是:根据函数是否