x86-emulation

c++ - 是否有一个真正有效的示例显示了 x86_64 上 ILP(指令级并行)的好处？

众所周知，CPU是流水线，如果命令序列彼此独立，它的工作效率最高-这称为ILP(指令级并行):http://en.wikipedia.org/wiki/Instruction-level_parallelism但是否有一个真正有效的示例显示ILP的好处，至少是合成示例，对于CPUx86_64(但对于相同数量的cmp/jne在这两种情况下)?我将编写以下示例-将数组的所有元素相加，但它没有显示出ILP的任何优势:http://ideone.com/fork/poWfsm顺序:for(i=0;i国际语言学院:registerunsignedintv0,v1,v2,v3;v0=v1=v2=v

amp 43 000000013 arr strong c++performance optimization assembly x86

c++ - x86/C++ - 指向指针 : Const being violated by compiler? 的指针

我正在为我的学生项目的游戏引擎开发一个共享指针(称为句柄)实现，我们遇到了一个我们无法解释的错误。出于某种原因，在我们工厂的某个时刻，有一个无效的内部指针通过句柄传递给工厂，这导致我们的原型(prototype)加载期间发生崩溃。我们调试了几个小时的过程，并将任何复杂的语句分解为最简单的版本，以便于调试。我最终将问题归结为Handle类的复制构造函数。但是，似乎仍然存在释放内部指针的中间步骤。我阅读了所有我能找到的关于可能导致此问题的文章，但没有找到任何内容。最后，我决定查看反汇编代码，看看我是否能弄清楚发生了什么。这是没有反汇编的复制构造函数。templateHandle::Hand

amp 43 Handle dword ptr c++visual-studio-2013 x86 shared-ptr

c++ - 使用 x86/x64 流 SIMD 扩展的 block 匹配优化

这将是我发布的第一个SO问题!std::cout我正在尝试使用Intel的SSE4.2和/或AVX内在函数优化立体视觉应用程序的“block匹配”实现。我正在使用“绝对差之和”来找到最佳匹配block。在我的例子中，blockSize将是一个奇数，例如3或5。这是我的C++代码片段:for(inti=0;i(l,m),lImage.at(l,m+k));}}if(S(i,j)=kStar;}}我知道StreamingSIMDExtension包含许多使用SAD进行block匹配的指令，例如_mm_mpsadbw_epu8和_mm_sad_epu8，但它们都以为目标blockSize为4

amp block code section blockSize c++c optimization sse simd

c++ - 哪些 x86 C++ 编译器本身是多线程的？

现在几乎每个用户在台式机(以及大量笔记本电脑)上都有2或4个内核。高级用户拥有6-12个内核的amd或i7。哪些x86/x86_64C/C++编译器可以使用多个线程进行编译？已经有类似'make-jN'的解决方案，但有时(对于-fwhole-program或-ipo)最后一步又大又慢，它是按顺序开始的。这些是否可以:GCC、IntelC++编译器、BorlandC++编译器、Open64、LLVM/GCC、LLVM/Clang、Sun编译器、MSVC、OpenWatcom、Pathscale、PGI、TenDRA、DigitalMars？对于多线程的编译器，线程数是否有更高的限制？谢谢

amp 多线 section code C++c++multithreading compiler-construction

c++ - 在 x86 SIMD vector 中查找最大元素的索引

我正在考虑为uint32_t实现8元堆排序。为此，我需要一个函数来选择8元素vector中最大元素的索引，以便我可以将它与父元素进行比较，并有条件地执行交换和进一步的筛选步骤。(8uint32_ts可以更改为16uint32_ts或8uint64_t或任何x86SIMD可以有效支持的内容)。我对如何做到这一点有一些想法，但我正在寻找比非矢量化代码更快的东西，尤其是我正在寻找能让我进行快速堆排序的东西。我有clang++3.3和Corei7-4670，所以也许我应该能够使用最新的x86SIMD东西。(顺便说一句:这是一个更大项目的一部分:https://github.com/tarsa/

amp vector vmax 256 section c++x86 sse simd avx

android - 发现多个文件的操作系统独立路径为 'lib/x86/libusb.so'

我正在使用libusb在我的安卓应用程序中。当我尝试构建libusbnative库时，我收到以下错误消息，生成了*.so文件。Error:Executionfailedfortask':app:transformNativeLibsWithMergeJniLibsForDebug'.MorethanonefilewasfoundwithOSindependentpath'lib/x86/libusb.so'构建.gradleimportorg.apache.tools.ant.taskdefs.condition.Osapplyplugin:'com.android.applicati

amp android 39 section c++android-ndk libusb libusb-1.0

c++ - 在 x86 应用程序中使用 x64 dll

我有一个DLL需要操作大量内存并且必须是x64才能执行此操作，但是调用它的应用程序是x86并且无法转换为x64。COM已用于应用程序和dll之间的交互。是否可以为此目的使用代理过程？我知道在相反的情况下可以做这样的事情(在x64应用程序中运行x86COM库)，会有什么不同吗？最佳答案是的，您可以，而且应该没有区别，因为COM会为您处理一切。On64-bitWindows,anout-of-process32-bitCOMservercancommunicatewitha64-bitclient,andanout-of-proce

amp 43 section 中运 COM c++

c++ - x86 和 x64 之间浮点运算的差异

我偶然发现了针对x86和x64的MSVS2010版本(两者都在同一台64位机器上执行)之间完成浮点运算的方式不同。这是一个简化的代码示例:floata=50.0f;floatb=65.0f;floatc=1.3f;floatd=a*c;boolbLarger1=dbool值bLarger1始终为false(d在两个构建中都设置为65.0)。变量bLarger2对于x64为假，但对于x86为真!我很清楚浮点运算和发生的舍入效应。我也知道32位有时使用与64位版本不同的float操作指令。但在这种情况下，我遗漏了一些信息。为什么首先bLarger1和bLarger2之间存在差异？为什么它只

amp 43 section bLarger pre c++c visual-studio-2010 floating-point 64-bit

c++ - ld : symbol(s) not found for architecture x86_64 (Xcode 4)//opengles. o

我正在使用外部库制作一个xcode命令工具应用程序，但遇到了一些错误。我试图解决它们的问题:使用不同的编译器构建删除GLES文件夹并重新添加在32和64上构建我是否缺少有关opengles.cpp的内容？如果您知道接下来可以做什么，请说出来，您可以在下面找到有关项目和错误的所有信息。如果您需要更多信息，我很乐意为您提供帮助。另外，如果你知道如何从xcode4编译的opnni中获取NiUsertracker示例，也将对解决这个问题有很大的帮助错误:问题可能与这些文件有关:项目设置的信息(这是一个命令行工具而不是应用程序):构建时的输出截图build设置最佳答

architecture amp image section description c++objective-c xcode opengl opengl-es

c++ - 在现代 x86 硬件上编写比特流的最快方法

在x86/x86-64上编写比特流的最快方法是什么？(码字通过编写比特流，我指的是将可变比特长度符号连接到连续内存缓冲区中的过程。目前我有一个带有32位中间缓冲区的标准容器可以写入voidwrite_bits(SomeContainer&dst,unsignedint&buffer,unsignedint&bits_left_in_buffer,intcodeword,shortbits_to_write){if(bits_to_write>bits_left_in_buffer):0;dst.push_back(towrite);bits_left_in_buffer=32-full

amp 编写 unsigned bits buffer c++optimization x86 bit-manipulation

88 89 909192 93 94