128

c++ - 使用 __float128 编译 C++ 代码

我正在尝试在我的C++程序中使用__float128。但是我在编译它时遇到了麻烦。这是简单的C++代码(test.cc):#include#includeusingnamespacestd;intmain(){__float128r=0.0q;__float128exp_d=expq(12.45q);cout然后我用编译这段代码g++test.cc-lquadmath-std=c++11出现以下错误错误:无法找到数字文字运算符'operateor""q'我该如何解决？最佳答案 Gcc-5打印出这个有用的附加说明:note:use-

amp 43 code section lt c++c++11 g++

c++ - 如何在 C++ 中自动添加和获取 128 位数字？

我使用Linuxx86_64和clang3.3。这在理论上有可能吗？std::atomic不起作用(对某些函数的undefinedreference)。__atomic_add_fetch也不起作用(“错误:还不能编译这个原子库调用”)。两者都是std::atomic和__atomic_add_fetch使用64位数字。最佳答案用一条指令不可能做到这一点，但你可以模拟它并且仍然是无锁的。除了最早的AMD64CPU，x64支持CMPXCHG16B指令。通过一些多精度数学，您可以很容易地做到这一点。恐怕我不知道GCC中CMPXCHG

amp 43 code olddst section c++atomic

C++:将 "boost::multiprecision::float128"转换为 "double"

我正在使用boost多精度库，更准确地说是boost::multiprecision::float128类型。使用ICPC进行编译时，我在尝试执行以下操作时遇到一些错误:doublea=functionA();其中functionA()返回一个boost::multiprecision::float128变量。error:nosuitableconversionfunctionfrom"boost::multiprecision::float128"to"double"exists|我该如何解决这个问题？最佳答案来自Boost文

amp 34 multiprecision section boost c++floating-point-precision

c++ - 128 位数字的位移位运算

假设我有一个由4个32位整数组成的数组，我用它来存储128位数字如何对这个128位数字进行左右移位？谢谢! 最佳答案使用uint128？如果可以，请使用专为此设计的x86SSE指令。(然后，当您对值进行位移后，就可以进行其他128位操作了……)SSE2移位平均需要4条指令，一个分支(一个case语句)。移动超过32位也没有问题。执行此操作的完整代码是使用gcc内在函数而不是原始汇编程序，位于sseutil.c(github:"UnusualusesofSSE2")中——它比粘贴在这里有意义的大一些。许多人在使用SSE2时遇到的障碍

amp 43 section code 128 c++c bit-manipulation bitwise-operators bit-shift

c++ - 计算 128 位整数中前导零的数量

如何有效地计算128位整数(uint128_t)中前导零的数量？我知道GCC的内置函数:__builtin_clz,__builtin_clzl,__builtin_clzll__builtin_ffs,__builtin_ffsl,__builtin_ffsll但是，这些函数仅适用于32位和64位整数。我还找到了一些SSE说明:__lzcnt16,__lzcnt,__lzcnt64正如您可能猜到的那样，它们仅适用于16、32和64位整数。对于128位整数是否有任何类似的、高效的内置功能？最佳答案 inlineintclz_u12

amp 43 code builtin section c++gcc bit-manipulation sse

c++ - 使用 RGB 源和 RGBA 叠加实现近乎实时的 CPU 功能，如 glAlphaFunc(GL_GREATER)

延迟是这里最大的问题。我发现尝试通过OpenGL将带有RGBA覆盖的3个1920x1080视频源渲染到单个窗口有限制。我能够渲染两个带叠加层的窗口或3个不带叠加层的窗口，但当引入第三个窗口时，渲染停顿很明显。我认为这个问题是由于过度使用glAlphaFunc()来覆盖RGB视频纹理和基于RGBA的纹理。为了减少过度使用，我的想法是将一些覆盖功能移到CPU中(因为我有很多CPU-双六核至强)。执行此操作的理想位置是将源RGB图像复制到映射的PBO并将RGB值替换为A>0的RGBA叠加层中的值。我尝试过使用英特尔IPP方法，但没有一种方法不涉及多次调用并会导致过多的延迟。我试过直接使用C代

glAlphaFunc 近乎 const 128 epi c++opengl assembly sse rgba

c++ - 是否有使用 SSE 查找两个变量模数的好方法？ (没有 SVML)

我正在尝试学习使用SSE，我制作的其中一个程序需要使用模除法，所以我写了这个来做到这一点(抱歉，它被过度评论了):__m128iSSEModDiv(__m128iinput,__m128idivisors){//ErrorChecking(divbyzero)/*__m128izeros=_mm_set1_epi32(0);__m128ierror=_mm_set1_epi32(-1);__m128izerocheck=_mm_cmpeq_epi32(zeros,divisors);if(_mm_extract_epi16(zerocheck,0)!=0)returnerror;if(

amp 43 code 128 section c++sse

c++ - 为什么不应该直接访问 __m128i 字段？

我正在阅读thisonMSDN,它说Youshouldnotaccessthe__m128ifieldsdirectly.Youcan,however,seethesetypesinthedebugger.Avariableoftype__m128imapstotheXMM[0-7]registers.但是，它并没有解释为什么。为什么？例如，是下面的“坏”:voidfunc(unsignedshortx,unsignedshorty){__m128ia;a.m128i_i64[0]=x;__m128ib;b.m128i_i64[0]=y;//Nowdosomethingwithaand

接访 amp section code vector c++sse intrinsics

c++ - 从 __m128i 中查找最小值/最大值

我想使用SIMD操作找到字节数组中的最小值/最大值。到目前为止，我能够遍历数组并将最小值/最大值存储到__m128i变量中，但这意味着我正在寻找的值与其他值混合在一起(确切地说是另外15个值)。我找到了这些讨论here和here对于整数，thispage对于float，但我不明白_mm_shuffle*是如何工作的。所以我的问题是:我必须执行哪些SIMD操作才能从__m128i变量中提取最小/最大字节(或无符号字节)值？_mm_shuffle*是如何运作的？当我在线查看“最小”文档时，我不明白。我知道它与_MM_SHUFFLEmacro有关，但我不明白这个例子。

amp 43 vmax section noreferrer c++x86 sse simd

brew install报错Error: No developer tools installed. Error: Command failed with exit 128: git

先来解决第一个问题Error:Nodevelopertoolsinstalled.InstalltheCommandLineTools:xcode-select--installxcode-select--install然后升级一下brew，出现警告。然后再次尝试安装treebrewupdatebrew install tree出现如下错误：fatal:notinagitdirectoryError:Commandfailedwithexit128:git在终端输入brew-vHomebrew3.6.20fatal:detecteddubiousownershipinrepositoryat'

Error nbsp style section homebrew macos

4 5 678 9 10