我是一名UNIX开发人员,负责帮助维护一些Windows软件,我正在查看.DEF生成器同时修复错误。它不包括__xmm,__real和__imp-来自导出的前缀符号。我一直在努力弄清楚这些符号到底是什么。很明显,它们不需要出现在.DEF中。文件(如果它们需要在DLL接口(interface)上导出,编译器将__declspec(dllexport)对其自身进行注释)但是......它们是什么?看起来排除__imp的目的前缀是排除functioncallthunks.正确吗?搜索MSDN未提供有关__xmm的信息或__real(顺便说一句,使用social.msdn.microsoft.
我有一个非常简单的函数,它使用行主矩阵(float**)转换vector(float*):intvector_by_matrix(float**m,float*v,float*out,intsize){inti,j;floattemp;if(!m||!v||!out)return-1;for(i=0;i代码最初是使用VisualStudio(2013)C++编译器编译为C++(x64);并且没有优化非常慢(该函数在运行期间被调用数百次/数千次并且系统的大小通常很大c.size=10000)。通过将优化设置为高(O2)并将浮点模式设置为快速,性能提升非常大(x20)。但是,我决定将文件转
我正在查看以下反汇编的c++代码autotest2=convert(2.0);00007FF6D6475ECCmoveax,16Dh00007FF6D6475ED1xorpsxmm1,xmm100007FF6D6475ED4cvtsi2sdxmm1,rax00007FF6D6475ED9mulsdxmm1,mmwordptr[__real@4000000000000000(07FF6D64AFE38h)]00007FF6D6475EE1divsdxmm1,mmwordptr[__real@401c000000000000(07FF6D64AFE58h)]并且很好奇xorpsxmm1,x
我想将存储在一个xmm寄存器中的数据与一个浮点值相乘,并将结果保存在一个xmm寄存器中。我制作了一张小图来更好地解释它。如您所见,我有一个xmm0寄存器,其中包含我的数据。例如它包含:xmm0=|4.0|2.5|3.5|2.0|每个float存储在4个字节中。我的xmm0寄存器是128位,16字节长。效果还不错。现在我想将0.5存储在另一个xmm寄存器中,例如xmm1,并将该寄存器与xmm0寄存器相乘,使xmm0中存储的每个值都乘以0.5。我完全不知道如何在XMM寄存器中存储0.5。有什么建议吗?顺便说一句:它是C++中的内联汇编程序。voidfilter(image*src_imag
如何只获取float的整数部分?所以,我有一个float组:x[4]={5.0,13.0,25.0,41.0};我把它放在xmm0中,然后用它做sqrt。我还需要一个命令来帮助仅获取此sqrt的一部分。例如5的sqrt将是2.236068,我只需要2.0的答案代码:__asm{movupsxmm0,xsqrtpsxmm0,xmm0//hereneedsomecommandmovupsx,xmm0} 最佳答案 使用roundps是最简单的。舍入模式表在其他地方,但您需要舍入模式3(接近零)。只有当输入保证在某个范围内(大约0到4.6e
我正在尝试实现一些内联汇编程序(在VisualStudio2012C++代码中)以利用SSE。我想将7个数字相加1e9次,所以我将它们从RAM放置到xmm0到CPU的xmm6寄存器。当我使用以下代码在visualstudio2012中使用内联汇编时:C++代码:for(inti=0;i我的ASM代码:intcount=1000000000;doubleresVal=0.0;//placingvaluestoregister__asm{movsdxmm0,val1;placingvar1inxmm0registermovsdxmm1,val2movsdxmm2,val3movsdxmm3
我刚刚开始使用VisualC++2012使用SSE内部函数,我需要一些指导(没有双关语意)。我有两个数组,每个数组包含4个signedshort(因此每个数组都是64位的,总共128个)。我想将一个加载到XMM寄存器的高位,另一个加载到低位。我可以使用SSE内在函数有效地完成这项工作吗?如果是,怎么办? 最佳答案 SSE2:shortA[]={0,1,2,3};shortB[]={4,5,6,7};__m128ia,b,v;a=_mm_loadl_epi64((const__m128i*)A);b=_mm_loadl_epi64((
使用SSE内在函数时,通常需要零vector。避免在调用函数时(每次有效地调用一些异或vector指令)在函数内创建零变量的一种方法是使用静态局部变量,如staticinline__m128inegate(__m128ia){static__m128izero=__mm_setzero_si128();return_mm_sub_epi16(zero,a);}似乎变量只在第一次调用函数时才被初始化。(我通过调用一个真正的函数而不是_mm_setzero_si128()内在函数来检查这一点。顺便说一下,它似乎只在C++中是可能的,而不是在C中。)(1)但是,一旦初始化发生:这是否会为程序
我正在试验SSE42和STTNI指令并得到奇怪的结果-PcmpEstrM(使用显式长度字符串)运行比PcmpIstrM慢两倍(隐式长度字符串).在我的i73610QM上,差异是2366.2毫秒与1202.3毫秒-97%。在i53470上差异不是很大,但仍然很重要=3206.2毫秒与2623.2毫秒-22%。两者都是“IvyBridge”-奇怪的是它们有如此不同的“差异”(至少我看不出它们的规范有任何技术差异-http://www.cpu-world.com/Compare_CPUs/Intel_AW8063801013511,Intel_CM8063701093302/)。Intel6
有没有办法检查__m128i变量中的所有位/字节/字等是否为0?在我的应用程序中,我必须检查__m128i变量中的所有整数是否都为零。我是否必须提取它们并分别进行比较?编辑:我现在做的是:intnext=0;do{//somecodenext=idata.m128i_i32[0]+idata.m128i_i32[1]+idata.m128i_i32[2]+idata.m128i_i32[3];}while(next>0);我需要的是检查idata是否全为零,而不必访问每个单独的元素,如果是则退出循环...根据Harold的评论,这是解决方案:__m128iidata=_mm_setr_