xmm1

c - MSVC 生成的符号表中 real、imp、__xmm 符号的含义

我是一名UNIX开发人员，负责帮助维护一些Windows软件，我正在查看.DEF生成器同时修复错误。它不包括__xmm,__real和__imp-来自导出的前缀符号。我一直在努力弄清楚这些符号到底是什么。很明显，它们不需要出现在.DEF中。文件(如果它们需要在DLL接口(interface)上导出，编译器将__declspec(dllexport)对其自身进行注释)但是......它们是什么？看起来排除__imp的目的前缀是排除functioncallthunks.正确吗？搜索MSDN未提供有关__xmm的信息或__real(顺便说一句，使用social.msdn.microsoft.

含义 MSVC code section real c windows visual-c++

c++ - MASM 使用 VS 击败未优化的 .cpp 但不是未优化的 .c

我有一个非常简单的函数，它使用行主矩阵(float**)转换vector(float*):intvector_by_matrix(float**m,float*v,float*out,intsize){inti,j;floattemp;if(!m||!v||!out)return-1;for(i=0;i代码最初是使用VisualStudio(2013)C++编译器编译为C++(x64)；并且没有优化非常慢(该函数在运行期间被调用数百次/数千次并且系统的大小通常很大c.size=10000)。通过将优化设置为高(O2)并将浮点模式设置为快速，性能提升非常大(x20)。但是，我决定将文件转

击败 amp xmm xmm1 float c++c performance visual-studio-2012 optimization

c++ - xorps 在同一个寄存器上的目的是什么？

我正在查看以下反汇编的c++代码autotest2=convert(2.0);00007FF6D6475ECCmoveax,16Dh00007FF6D6475ED1xorpsxmm1,xmm100007FF6D6475ED4cvtsi2sdxmm1,rax00007FF6D6475ED9mulsdxmm1,mmwordptr[__real@4000000000000000(07FF6D64AFE38h)]00007FF6D6475EE1divsdxmm1,mmwordptr[__real@401c000000000000(07FF6D64AFE58h)]并且很好奇xorpsxmm1,x

寄存 amp code xmm1 c++assembly

c++ - 将单个 float 移动到 xmm 寄存器

我想将存储在一个xmm寄存器中的数据与一个浮点值相乘，并将结果保存在一个xmm寄存器中。我制作了一张小图来更好地解释它。如您所见，我有一个xmm0寄存器，其中包含我的数据。例如它包含:xmm0=|4.0|2.5|3.5|2.0|每个float存储在4个字节中。我的xmm0寄存器是128位，16字节长。效果还不错。现在我想将0.5存储在另一个xmm寄存器中，例如xmm1，并将该寄存器与xmm0寄存器相乘，使xmm0中存储的每个值都乘以0.5。我完全不知道如何在XMM寄存器中存储0.5。有什么建议吗？顺便说一句:它是C++中的内联汇编程序。voidfilter(image*src_imag

寄存 amp image xmm c++gcc x86 sse simd

c++ - 如何截断 XMM 寄存器中的浮点值

如何只获取float的整数部分？所以，我有一个float组:x[4]={5.0,13.0,25.0,41.0};我把它放在xmm0中，然后用它做sqrt。我还需要一个命令来帮助仅获取此sqrt的一部分。例如5的sqrt将是2.236068，我只需要2.0的答案代码:__asm{movupsxmm0,xsqrtpsxmm0,xmm0//hereneedsomecommandmovupsx,xmm0} 最佳答案使用roundps是最简单的。舍入模式表在其他地方，但您需要舍入模式3(接近零)。只有当输入保证在某个范围内(大约0到4.6e

寄存 amp code section xmm0 c++c assembly sse

c++ - 使用 XMM0 寄存器和内存提取(C++ 代码)比仅使用 XMM 寄存器的 ASM 快两倍 - 为什么？

我正在尝试实现一些内联汇编程序(在VisualStudio2012C++代码中)以利用SSE。我想将7个数字相加1e9次，所以我将它们从RAM放置到xmm0到CPU的xmm6寄存器。当我使用以下代码在visualstudio2012中使用内联汇编时:C++代码:for(inti=0;i我的ASM代码:intcount=1000000000;doubleresVal=0.0;//placingvaluestoregister__asm{movsdxmm0,val1;placingvar1inxmm0registermovsdxmm1,val2movsdxmm2,val3movsdxmm3

寄存 amp xmm mmword addsd c++performance optimization assembly sse2

c++ - 如何将两组 4 条短裤加载到 XMM 寄存器中？

我刚刚开始使用VisualC++2012使用SSE内部函数，我需要一些指导(没有双关语意)。我有两个数组，每个数组包含4个signedshort(因此每个数组都是64位的，总共128个)。我想将一个加载到XMM寄存器的高位，另一个加载到低位。我可以使用SSE内在函数有效地完成这项工作吗？如果是，怎么办？最佳答案 SSE2:shortA[]={0,1,2,3};shortB[]={4,5,6,7};__m128ia,b,v;a=_mm_loadl_epi64((const__m128i*)A);b=_mm_loadl_epi64((

寄存短裤 section code strong c++x86 sse simd intrinsics

c++ - 静态/静态本地 SSE/AVX 变量是否阻塞了 xmm/ymm 寄存器？

使用SSE内在函数时，通常需要零vector。避免在调用函数时(每次有效地调用一些异或vector指令)在函数内创建零变量的一种方法是使用静态局部变量，如staticinline__m128inegate(__m128ia){static__m128izero=__mm_setzero_si128();return_mm_sub_epi16(zero,a);}似乎变量只在第一次调用函数时才被初始化。(我通过调用一个真正的函数而不是_mm_setzero_si128()内在函数来检查这一点。顺便说一下，它似乎只在C++中是可能的，而不是在C中。)(1)但是，一旦初始化发生:这是否会为程序

寄存 amp section code c++sse avx

c++ - SSE42 & STTNI - PcmpEstrM 比 PcmpIstrM 慢两倍，这是真的吗？

我正在试验SSE42和STTNI指令并得到奇怪的结果-PcmpEstrM(使用显式长度字符串)运行比PcmpIstrM慢两倍(隐式长度字符串).在我的i73610QM上，差异是2366.2毫秒与1202.3毫秒-97%。在i53470上差异不是很大，但仍然很重要=3206.2毫秒与2623.2毫秒-22%。两者都是“IvyBridge”-奇怪的是它们有如此不同的“差异”(至少我看不出它们的规范有任何技术差异-http://www.cpu-world.com/Compare_CPUs/Intel_AW8063801013511,Intel_CM8063701093302/)。Intel6

amp PcmpEstrM strong AGGOP xmm1 c++performance sse sse4

c++ - 检查 XMM 寄存器是否全为零

有没有办法检查__m128i变量中的所有位/字节/字等是否为0？在我的应用程序中，我必须检查__m128i变量中的所有整数是否都为零。我是否必须提取它们并分别进行比较？编辑:我现在做的是:intnext=0;do{//somecodenext=idata.m128i_i32[0]+idata.m128i_i32[1]+idata.m128i_i32[2]+idata.m128i_i32[3];}while(next>0);我需要的是检查idata是否全为零，而不必访问每个单独的元素，如果是则退出循环...根据Harold的评论，这是解决方案:__m128iidata=_mm_setr_

寄存 amp code section idata c++sse simd intrinsics