草庐IT

c++ - SIMD:实现 _mm256_max_epu64_ 和 _mm256_min_epu64_

coder 2024-02-19 原文

我想问一个关于 SIMD 的问题。 我的 CPU 中没有 AVX512 但想要一个 _mm256_max_epu64 .

我们如何用AVX2实现这个功能?

在这里,我尝试拥有我的微不足道的。也许我们可以将其作为讨论并加以改进。

#define SIMD_INLINE inline __attribute__ ((always_inline)) 

SIMD_INLINE __m256i __my_mm256_max_epu64_(__m256i a, __m256i b) {
  uint64_t *val_a = (uint64_t*) &a;
  uint64_t *val_b = (uint64_t*) &b;
  uint64_t e[4];
  for (size_t i = 0; i < 4; ++i) e[i] = (*(val_a + i) > *(val_b + i)) ? *(val_a + i) : *(val_b + i);
  return _mm256_set_epi64x(e[3], e[2], e[1], e[0]);
}

编辑作为摘要:

我们讨论了__mm256 无符号比较。我在上面给出了我的简单实现,只是遵循了非常基本的概念:单个 __m256i 相当于 4 个 uint64_t 或 4 个 float,这也使得一起向上 256 位。

然后我们从@chtz 那里得到了答案,这使得 AVXAVX 调用更多位编程函数变得更有意义。

最后,由于 CLang,这两个实现产生了相同的程序集。 Assembly example from compiler explorer


添加了另一个 _mm256_min_epu64_。它只是反射(reflect)上面的 _mm256_max_epu64_。便于搜索以供日后使用。

SIMD_INLINE __m256i __my_mm256_min_epu64_(__m256i a, __m256i b) {
  uint64_t *val_a = (uint64_t*) &a;
  uint64_t *val_b = (uint64_t*) &b;
  uint64_t e[4];
  for (size_t i = 0; i < 4; ++i) e[i] = (*(val_a + i) < *(val_b + i)) ? *(val_a + i) : *(val_b + i);
  return _mm256_set_epi64x(e[3], e[2], e[1], e[0]);
}

最佳答案

最简单的解决方案是 _mm256_cmpgt_epi64 的组合与混合。 但是,如果您想要无符号最大值,则需要先减去 1<<63来自每个元素(在比较之前,而不是在混合之前)。 没有 _mm256_blendv_epu64指令,但可以使用 _mm256_blendv_epi8因为掩码将设置在相关元素的每一位。另请注意,减去最高位可以通过稍微快一点的 xor 来完成。 :

__m256i pmax_epu64(__m256i a, __m256i b)
{
    __m256i signbit = _mm256_set1_epi64x(0x8000'0000'0000'0000);
    __m256i mask = _mm256_cmpgt_epi64(_mm256_xor_si256(a,signbit),_mm256_xor_si256(b,signbit));
    return _mm256_blendv_epi8(b,a,mask);
}

实际上,clang 几乎设法从您的代码中获得相同的指令:https://godbolt.org/z/afhdOa 它只使用 vblendvpd而不是 vpblendvb ,这可能会引入延迟(有关详细信息,请参阅@PeterCordes 评论)。

通过一些位操作,您实际上可以保存符号位的寄存器设置。 如果两个操作数的符号匹配,则无符号比较给出相同的结果,如果它们不匹配,则给出相反的结果,即

unsigned_greater_than(signed a, signed b) == (a<0) ^ (b<0) ^ (a>b)

如果你使用 _mm256_blendv_pd 就可以使用它用一些铸件作为_mm256_blendv_epi64 (因为现在只有最高位有效):

__m256i _mm256_blendv_epi64(__m256i a, __m256i b, __m256i mask)
{
    return _mm256_castpd_si256(_mm256_blendv_pd(
        _mm256_castsi256_pd(a),_mm256_castsi256_pd(b),_mm256_castsi256_pd(mask)));
}

__m256i pmax_epu64_b(__m256i a, __m256i b)
{
    __m256i opposite_sign = _mm256_xor_si256(a,b);
    __m256i mask = _mm256_cmpgt_epi64(a,b);
    return _mm256_blendv_epi64(b,a,_mm256_xor_si256(mask, opposite_sign));
}

仅供引用,有符号最大值当然只是:

__m256i pmax_epi64(__m256i a, __m256i b)
{
    __m256i mask = _mm256_cmpgt_epi64(a,b);
    return _mm256_blendv_epi8(b,a,mask);
}

关于c++ - SIMD:实现 _mm256_max_epu64_ 和 _mm256_min_epu64_,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54394350/

有关c++ - SIMD:实现 _mm256_max_epu64_ 和 _mm256_min_epu64_的更多相关文章

  1. ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2

    我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库,所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po

  2. ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby​​ 中生成它们? - 2

    我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%

  3. ruby-on-rails - 如何优雅地重启 thin + nginx? - 2

    我的瘦服务器配置了nginx,我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例,但找不到好的解决方案。有没有人能做到这一点? 最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器,例如server{listen80;server

  4. ruby-on-rails - 将 Ruby 中的日期/时间格式化为 YYYY-MM-DD HH :MM:SS - 2

    这个问题在这里已经有了答案:Railsformattingdate(4个答案)关闭4年前。我想格式化Time.Now函数以显示YYYY-MM-DDHH:MM:SS而不是:“2018-03-0909:47:19+0000”该函数需要放在时间中.现在功能。require‘roo’require‘roo-xls’require‘byebug’file_name=ARGV.first||“Template.xlsx”excel_file=Roo::Spreadsheet.open(“./#{file_name}“,extension::xlsx)xml=Nokogiri::XML::Build

  5. C# 到 Ruby sha1 base64 编码 - 2

    我正在尝试在Ruby中复制Convert.ToBase64String()行为。这是我的C#代码:varsha1=newSHA1CryptoServiceProvider();varpasswordBytes=Encoding.UTF8.GetBytes("password");varpasswordHash=sha1.ComputeHash(passwordBytes);returnConvert.ToBase64String(passwordHash);//returns"W6ph5Mm5Pz8GgiULbPgzG37mj9g="当我在Ruby中尝试同样的事情时,我得到了相同sha

  6. ruby - 使用 `+=` 和 `send` 方法 - 2

    如何将send与+=一起使用?a=20;a.send"+=",10undefinedmethod`+='for20:Fixnuma=20;a+=10=>30 最佳答案 恐怕你不能。+=不是方法,而是语法糖。参见http://www.ruby-doc.org/docs/ProgrammingRuby/html/tut_expressions.html它说Incommonwithmanyotherlanguages,Rubyhasasyntacticshortcut:a=a+2maybewrittenasa+=2.你能做的最好的事情是:

  7. ruby - 如何计算 Liquid 中的变量 +1 - 2

    我对如何计算通过{%assignvar=0%}赋值的变量加一完全感到困惑。这应该是最简单的任务。到目前为止,这是我尝试过的:{%assignamount=0%}{%forvariantinproduct.variants%}{%assignamount=amount+1%}{%endfor%}Amount:{{amount}}结果总是0。也许我忽略了一些明显的东西。也许有更好的方法。我想要存档的只是获取运行的迭代次数。 最佳答案 因为{{incrementamount}}将输出您的变量值并且不会影响{%assign%}定义的变量,我

  8. arrays - Ruby 数组 += vs 推送 - 2

    我有一个数组数组,想将元素附加到子数组。+=做我想做的,但我想了解为什么push不做。我期望的行为(并与+=一起工作):b=Array.new(3,[])b[0]+=["apple"]b[1]+=["orange"]b[2]+=["frog"]b=>[["苹果"],["橙子"],["Frog"]]通过推送,我将推送的元素附加到每个子数组(为什么?):a=Array.new(3,[])a[0].push("apple")a[1].push("orange")a[2].push("frog")a=>[[“苹果”、“橙子”、“Frog”]、[“苹果”、“橙子”、“Frog”]、[“苹果”、“

  9. += 的 Ruby 方法 - 2

    有没有办法让Ruby能够做这样的事情?classPlane@moved=0@x=0defx+=(v)#thisiserror@x+=v@moved+=1enddefto_s"moved#{@moved}times,currentxis#{@x}"endendplane=Plane.newplane.x+=5plane.x+=10putsplane.to_s#moved2times,currentxis15 最佳答案 您不能在Ruby中覆盖复合赋值运算符。任务在内部处理。您应该覆盖+,而不是+=。plane.a+=b与plane.a=

  10. ruby-on-rails - Rails 基本 Base64 身份验证 - 2

    我正在尝试复制此GETcurl请求:curl-D--XGET-H"Authorization:BasicdGVzdEB0YXByZXNlYXJjaC5jb206NGMzMTg2Mjg4YWUyM2ZkOTY2MWNiNWRmY2NlMTkzMGU="-H"Content-Type:application/json"http://staging.example.com/api/v1/campaigns在Ruby中,通过电子邮件+apikey生成身份验证:auth="Basic"+Base64::encode64("test@example.com:4c3186288ae23fd9661c

随机推荐