草庐IT

Assembly

全部标签

c++ - for循环中的热点

我正在尝试优化这段代码。staticlvh_distancelevenshtein_distance(conststd::string&s1,conststd::string&s2){constsize_tlen1=s1.size(),len2=s2.size();std::vectorcol(len2+1),prevCol(len2+1);constsize_tprevColSize=prevCol.size();for(unsignedinti=0;iIntelVTune显示大约一半的处理器时间花费在第二个for上。说明,而不是中的2行for循环。当我展开程序集源时,我可以看到fo

c++ - 需要对特定安全优化的解释

我正在阅读book[rus](抱歉,目前我找不到英文版本)由KrisKaspersky撰写,解释了软件安全的理念和技术。书中有一个例子。它声明代码:if(!IsValidUser()){Message("Invaliduser!Abroting...");Abort;}完全不安全,因为它被翻译成这样:CALLIsValidUserORAX,AXJZcontinue^^^^^^^^^^^^^PUSHoffsetstr_invalid_userCALLMessageCALLAbortcontinue:;normalprogramexecution...........因此,可以通过在反汇编

c++ - 英特尔®事务同步扩展新指令(TSX-NI)与英特尔TSX有区别吗?

我在英特尔页面上找到了https://ark.intel.com/products/97123/Intel-Core-i5-7500-Processor-6M-Cache-up-to-3_80-GHz该处理器支持TSX-NI技术,但我在Google上找不到有关它的任何信息。是否与IntelTSX相同?如果有区别,那么我该如何使用它。对不起,我的英语不好!:) 最佳答案 似乎只是一种营销手段。在Internet上,Intel手册或IntelISA扩展手册中都找不到“TSX-NI”的引用。引用英特尔[1]IntelTransaction

c++ - 正在生成缓慢的 vpermpd 指令;为什么?

我有一个过滤器m_f,它通过作用于输入vectorvReald2v=m_f[0]*v[i];for(size_tj=1;jperf告诉我们这个循环在哪里很热:vaddpd和vfma231pd是有意义的;没有他们,我们肯定无法执行此操作。但是缓慢的vpermpd让我感到困惑。它有什么作用? 最佳答案 vpermpd如果您的瓶颈是前端吞吐量(将uops馈送到无序核心),则只会在这里减慢您的速度。vpermpd并不是特别“慢”,除非您使用的是AMDCPU。(跨车道YMM洗牌在AMD的CPU上很慢,因为它们必须解码成比256位指令分成的正常

c++ - 如何优化一个周期?

我有以下瓶颈功能。typedefunsignedcharbyte;voidCompareArrays(constbyte*p1Start,constbyte*p1End,constbyte*p2,byte*p3){constbyteb1=128-30;constbyteb2=128+30;for(constbyte*p1=p1Start;p1!=p1End;++p1,++p2,++p3){*p3=(*p1我想用SSE2内部函数替换C++代码。我试过_mm_cmpgt_epi8但它使用了签名比较。我需要无符号比较。有什么技巧(SSE、SSE2、SSSE3)可以解决我的问题吗?注意:在这种

c++ - 全局变量是如何存储的?

据我所知,有两种类型的全局变量,已初始化和未初始化。它们是如何储存的?它们都存储在可执行文件中吗?我可以想到将初始化的全局变量的初始值存储在可执行文件中。但是未初始化的需要存储什么?我目前的理解是这样的:可执行文件被组织成几个部分,例如.text、.data和.bss。代码存储在.text段中,初始化的全局或静态数据存储在.data段中,未初始化的全局或静态数据存储在.bss段中。感谢您花时间查看我的问题。更新1-2010年11月3日上午9:56我在这里找到了一个很好的引用:SegmentsinAssemblyLanguageSource-Buildingthetextanddatas

c++ - 在 Visual C++ 中从内联程序集访问类成员

这是我的代码:voidGraph::PutPixel(DWORDx,DWORDy,DWORDc){__asm{MovEax,yMovEbx,_widthMulEbxAddEax,xShlEax,2//MultiplybyfourAddEax,_bufferMovEdi,EaxMovEax,cStosD}}其中_buffer和_width是Graph类成员:private:DWORD_width;DWORD*_buffer;它不起作用;我从两个变量中得到0值,但实际上它们还有一些其他值。我可以通过将类变量复制到局部变量并使用它们来修复它:voidGraph::PutPixel(DWORD

c++ - 使用 XMM0 寄存器和内存提取(C++ 代码)比仅使用 XMM 寄存器的 ASM 快两倍 - 为什么?

我正在尝试实现一些内联汇编程序(在VisualStudio2012C++代码中)以利用SSE。我想将7个数字相加1e9次,所以我将它们从RAM放置到xmm0到CPU的xmm6寄存器。当我使用以下代码在visualstudio2012中使用内联汇编时:C++代码:for(inti=0;i我的ASM代码:intcount=1000000000;doubleresVal=0.0;//placingvaluestoregister__asm{movsdxmm0,val1;placingvar1inxmm0registermovsdxmm1,val2movsdxmm2,val3movsdxmm3

c++ - 图形驱动程序如何以编程方式从 CPU 到 GPU 进行通信?

很长一段时间以来,我一直想知道CPU指令如何与GPU交互。据我了解,CPU有一组它可以理解和执行的指令(机器代码),驱动程序是一种通过CPU与GPU通信的软件。但是这个软件是如何通信的呢?CPU是否包含明确告诉它与另一个设备通信的某些汇编指令?我能否编写汇编代码或C/C++代码来与显卡通信,就像驱动程序在特定机器环境下所做的那样? 最佳答案 与PC上的任何硬件设备一样,显卡将对特定内存地址和可能的输入/输出端口的读写做出响应。PCI总线定义了它们的分配方式。没有特定的CPU指令来与显卡通信,在写入内存位置的情况下,它仅使用普通指令来

c++ - Visual Studio C++ : Seeing the ASM code?

我想看看VisualStudioC++生成的所有asm,以了解一些有关ASM、编译器等的知识。我知道使用GCC,您可以使用-S参数来实现,但不能在VS中实现。我该怎么做? 最佳答案 最简单的方法是在集成调试器中启动您的程序,然后打开汇编语言View。这显示了与您的原始源代码交错的汇编语言。当我使用VS时,这是Alt+F7或其他东西,但它可能已经改变了。这样做(相对于使用-S等价物)的好处是您可以准确地关注您感兴趣的代码行。 关于c++-VisualStudioC++:SeeingtheA