草庐IT

c++ - 获取 `rsqrtss` 包装器的最少指令

coder 2024-02-05 原文

我认为是时候使用快速平方根倒数了。因此,我尝试编写一个函数(在生产中将被标记为 inline):

float sqrt_recip(float x) {
  return _mm_cvtss_f32( _mm_rsqrt_ss( _mm_set_ps1(x) ) ); //same as _mm_set1_ps
}

TL;DR:我的问题是“如何让 GCC 和 ICC 为上述功能输出最少的汇编(两条指令),最好不求助于原始汇编(坚持使用内在函数)?”

正如所写,在 ICC 13.0.1、GCC 5.2.0 和 Clang 3.7 上,输出是:

shufps  xmm0, xmm0, 0
rsqrtss xmm0, xmm0
ret

这是有道理的,因为我使用 _mm_set_ps1x 分散到寄存器的所有组件中。但是,我真的不需要那样做。我宁愿只做最后两行。当然,shufps 只是一个循环。但是rsqrtss只有三五个。 20% 到 33% 的开销完全没有值(value)。


我尝试过的一些事情:

  • 我试过只是不设置它:
    union { __m128 v; float f[4]; } u;
    u.f[0] = x;
    return _mm_cvtss_f32(_mm_rsqrt_ss(u.v));
    这实际上适用于 Clang,但 ICC 和 GCC 的输出尤其令人震惊。

  • 您可以用零填充(即使用 _mm_set_ss)而不是分散。同样,GCC 和 ICC 的输出都不是最佳的。在 GCC 的案例中,GCC 滑稽地添加了这个:
    movss DWORD PTR [rsp-12], xmm0
    movss xmm0,DWORD PTR [rsp-12]


最佳答案

三年半过去了,虽然编译器进步了,情况也变好了,但仍然没有输出最优代码。

然而,在不使用原始汇编的情况下,我们仍然可以通过使用内联汇编比内部函数做得更好。我们必须小心一点;在非 VEX 编码指令和 VEX 编码指令之间切换会产生重大损失,因此我们需要两个代码路径。

这会在 GCC (9.0.1)、Clang (9.0.0) 和 ICC (19.0.1.144) 上产生最佳结果。它仅在内联而不是 VEX 编码时在 MSVC (19.16) 上产生最佳结果(这可能是我们能做的最好的,因为 MSVC 不支持 x86-64 上的内联汇编):

#include <xmmintrin.h>


inline float rsqrt_fast(float x) {
    #ifndef _MSC_VER //Optimal
        float result;
        asm( //Note AT&T order
            #ifdef __AVX__
            "vrsqrtss %1, %1, %0"
            #else
            "rsqrtss %1, %0"
            #endif
            : "=x"(result)
            : "x"(x)
        );
        return result;
    #else //TODO: not optimal when in AVX mode or when not inlined
        return _mm_cvtss_f32(_mm_rsqrt_ss(_mm_set_ps1(x)));
    #endif
}

关于c++ - 获取 `rsqrtss` 包装器的最少指令,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32687079/

有关c++ - 获取 `rsqrtss` 包装器的最少指令的更多相关文章

  1. ruby-on-rails - 如何优雅地重启 thin + nginx? - 2

    我的瘦服务器配置了nginx,我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例,但找不到好的解决方案。有没有人能做到这一点? 最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器,例如server{listen80;server

  2. ruby - 简单获取法拉第超时 - 2

    有没有办法在这个简单的get方法中添加超时选项?我正在使用法拉第3.3。Faraday.get(url)四处寻找,我只能先发起连接后应用超时选项,然后应用超时选项。或者有什么简单的方法?这就是我现在正在做的:conn=Faraday.newresponse=conn.getdo|req|req.urlurlreq.options.timeout=2#2secondsend 最佳答案 试试这个:conn=Faraday.newdo|conn|conn.options.timeout=20endresponse=conn.get(url

  3. ruby - 从 Ruby 中的主机名获取 IP 地址 - 2

    我有一个存储主机名的Ruby数组server_names。如果我打印出来,它看起来像这样:["hostname.abc.com","hostname2.abc.com","hostname3.abc.com"]相当标准。我想要做的是获取这些服务器的IP(可能将它们存储在另一个变量中)。看起来IPSocket类可以做到这一点,但我不确定如何使用IPSocket类遍历它。如果它只是尝试像这样打印出IP:server_names.eachdo|name|IPSocket::getaddress(name)pnameend它提示我没有提供服务器名称。这是语法问题还是我没有正确使用类?输出:ge

  4. ruby - 获取模块中定义的所有常量的值 - 2

    我想获取模块中定义的所有常量的值:moduleLettersA='apple'.freezeB='boy'.freezeendconstants给了我常量的名字:Letters.constants(false)#=>[:A,:B]如何获取它们的值的数组,即["apple","boy"]? 最佳答案 为了做到这一点,请使用mapLetters.constants(false).map&Letters.method(:const_get)这将返回["a","b"]第二种方式:Letters.constants(false).map{|c

  5. ruby-on-rails - 获取 inf-ruby 以使用 ruby​​ 版本管理器 (rvm) - 2

    我安装了ruby​​版本管理器,并将RVM安装的ruby​​实现设置为默认值,这样'哪个ruby'显示'~/.rvm/ruby-1.8.6-p383/bin/ruby'但是当我在emacs中打开inf-ruby缓冲区时,它使用安装在/usr/bin中的ruby​​。有没有办法让emacs像shell一样尊重ruby​​的路径?谢谢! 最佳答案 我创建了一个emacs扩展来将rvm集成到emacs中。如果您有兴趣,可以在这里获取:http://github.com/senny/rvm.el

  6. Ruby 从大范围中获取第 n 个项目 - 2

    假设我有这个范围:("aaaaa".."zzzzz")如何在不事先/每次生成整个项目的情况下从范围中获取第N个项目? 最佳答案 一种快速简便的方法:("aaaaa".."zzzzz").first(42).last#==>"aaabp"如果出于某种原因你不得不一遍又一遍地这样做,或者如果你需要避免为前N个元素构建中间数组,你可以这样写:moduleEnumerabledefskip(n)returnto_enum:skip,nunlessblock_given?each_with_indexdo|item,index|yieldit

  7. ruby-on-rails - Cucumber 是否只是 rspec 的包装器以帮助将测试组织成功能? - 2

    只是想确保我理解了事情。据我目前收集到的信息,Cucumber只是一个“包装器”,或者是一种通过将事物分类为功能和步骤来组织测试的好方法,其中实际的单元测试处于步骤阶段。它允许您根据事物的工作方式组织您的测试。对吗? 最佳答案 有点。它是一种组织测试的方式,但不仅如此。它的行为就像最初的Rails集成测试一样,但更易于使用。这里最大的好处是您的session在整个Scenario中保持透明。关于Cucumber的另一件事是您(应该)从使用您的代码的浏览器或客户端的角度进行测试。如果您愿意,您可以使用步骤来构建对象和设置状态,但通常您

  8. ruby - Net::HTTP 获取源代码和状态 - 2

    我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态,而无需发出第二个请求。有没有办法用另一种方法做到这一点?我一直在查看文档,但似乎找不到我要找的东西。 最佳答案 在我看来,除非您需要一些真正的低级访问或控制,否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur

  9. ruby - 没有类方法获取 Ruby 类名 - 2

    如何在Ruby中获取BasicObject实例的类名?例如,假设我有这个:classMyObjectSystem我怎样才能使这段代码成功?编辑:我发现Object的实例方法class被定义为returnrb_class_real(CLASS_OF(obj));。有什么方法可以从Ruby中使用它? 最佳答案 我花了一些时间研究irb并想出了这个:classBasicObjectdefclassklass=class这将为任何从BasicObject继承的对象提供一个#class您可以调用的方法。编辑评论中要求的进一步解释:假设你有对象

  10. ruby-on-rails - 如何在 Gem 中获取 Rails 应用程序的根目录 - 2

    是否可以在应用程序中包含的gem代码中知道应用程序的Rails文件系统根目录?这是gem来源的示例:moduleMyGemdefself.included(base)putsRails.root#returnnilendendActionController::Base.send:include,MyGem谢谢,抱歉我的英语不好 最佳答案 我发现解决类似问题的解决方案是使用railtie初始化程序包含我的模块。所以,在你的/lib/mygem/railtie.rbmoduleMyGemclassRailtie使用此代码,您的模块将在

随机推荐