simd-library

c++ - C/C++ : What is the difference between a statically-linked library and an object file?

我知道编译时包含在可执行文件中的代码可能来自目标文件(.o文件)和静态链接库(.lib/.a文件)。这两者在根本上和概念上有什么区别？为什么“目标代码”和“静态链接库”之间有不同的概念？各自的优点和缺点是什么，为什么要使用一个而不是另一个？静态链接库是否可以从目标文件生成，反之亦然，目标文件是否可以从静态链接库生成？最佳答案目标文件是已编译但未链接的代码。库包含目标文件。因此你的问题变成了，“如果我只能使用目标文件，为什么要使用静态链接库？”原因如下。与对象集合不同，每个对象都有自己的符号表，库有一个单一的、统一的符号表，在库调

c++ - 可以使用 SIMD 优化计算两个字符串之间的字节匹配吗？

分析表明这里的这个函数是我的应用程序的真正瓶颈:staticinlineintcountEqualChars(constchar*string1,constchar*string2,intsize){intr=0;for(intj=0;j即使使用-O3和-march=native，G++4.7.2也不会向量化此函数(我检查了汇编器输出)。现在，我不是SSE和friend的专家，但我认为一次比较多个字符应该更快。关于如何加快速度的任何想法？目标架构是x86-64。最佳答案当然可以。pcmpeqb比较两个16字节的vector，并生

amp 43 section code 方为 c++optimization x86-64 sse simd

c++ - 使用 x86/x64 流 SIMD 扩展的 block 匹配优化

这将是我发布的第一个SO问题!std::cout我正在尝试使用Intel的SSE4.2和/或AVX内在函数优化立体视觉应用程序的“block匹配”实现。我正在使用“绝对差之和”来找到最佳匹配block。在我的例子中，blockSize将是一个奇数，例如3或5。这是我的C++代码片段:for(inti=0;i(l,m),lImage.at(l,m+k));}}if(S(i,j)=kStar;}}我知道StreamingSIMDExtension包含许多使用SAD进行block匹配的指令，例如_mm_mpsadbw_epu8和_mm_sad_epu8，但它们都以为目标blockSize为4

amp block code section blockSize c++c optimization sse simd

c++ - qmake : Build library without the symlinks and 'lib' prefix

我在我的应用程序中需要一个非常简单的机制，我的项目构建为共享库“.so”或“.dll”，但我想要的是:ExampleAppOne.so我得到:libExampleAppOne.so->libExampleAppOne.so.1.0.0libExampleAppOne.so.1->libExampleAppOne.so.1.0.0libExampleAppOne.so.1.0->libExampleAppOne.so.1.0.0我什至不想要“lib”前缀。在.pro文件中，我所能做的就是更改INSTALLS变量(这是因为我的第三个要求是将库构建在特定目录中)。此外，我还有第四个相关要求:

amp symlinks libExampleAppOne section code c++qt libraries qmake

c++ - 如何在使用 Eigen Library c++ 时删除特定行或列

我正在为我的项目使用Eigen库。我正在搜索如何从Eigen中的给定矩阵中删除特定行或列。我没有成功。MatrixXdA=X1X2X3X4Y1Y2Y3Y4Z1Z2Z3Z4A1A2A3A4MatrixXdAtransform=X1X2X4Y1Y2Y4Z1Z2Z4A1A2A4entercodehere除了遍历整个矩阵或对矩阵A使用block操作。有没有简单的方法。最佳答案使用block函数更简洁:voidremoveRow(Eigen::MatrixXd&matrix,unsignedintrowToRemove){unsigned

amp 43 matrix numRows numCols c++eigen

c++ - 在 x86 SIMD vector 中查找最大元素的索引

我正在考虑为uint32_t实现8元堆排序。为此，我需要一个函数来选择8元素vector中最大元素的索引，以便我可以将它与父元素进行比较，并有条件地执行交换和进一步的筛选步骤。(8uint32_ts可以更改为16uint32_ts或8uint64_t或任何x86SIMD可以有效支持的内容)。我对如何做到这一点有一些想法，但我正在寻找比非矢量化代码更快的东西，尤其是我正在寻找能让我进行快速堆排序的东西。我有clang++3.3和Corei7-4670，所以也许我应该能够使用最新的x86SIMD东西。(顺便说一句:这是一个更大项目的一部分:https://github.com/tarsa/

amp vector vmax 256 section c++x86 sse simd avx

c++ - SIMD 延迟吞吐量

关于IntelIntrisicsGuide对于大多数指令，它还具有延迟和吞吐量的值。示例:__m128i_mm_min_epi32PerformanceArchitectureLatencyThroughputHaswell10.5IvyBridge10.5SandyBridge10.5Westmere11Nehalem11这些数字到底是什么意思？我想较慢的延迟意味着命令需要更长的时间来执行，但是Nehalem的吞吐量1和Ivy的0.5意味着命令在Nehalem上更快？最佳答案指令的“延迟”是执行一条指令需要多少个时钟周期(结果

吞吐 amp https section c++performance x86 sse simd

针对 SIMD : Making an SoA less of a PiTA 的 C++ 设计

关闭。这个问题是opinion-based.它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过editingthispost用事实和引文回答问题.2年前关闭。Improvethisquestion苦乐参半的SOA我最近看到了使用带有SoA(数组结构)表示的手写SIMD内在函数的乐趣。与我以前的AoS(结构数组)代码相比，速度的提升，至少对于简单的顺序类型的流操作而言，几乎是惊人的，速度提高了一倍到三倍。作为奖励，除了减少内存使用之外，它还简化了逻辑以排除那些棘手的水平操作和混洗组件。然而，后来有一种苦乐参半的感觉，我意识到他们在代码中使用的PITA是什么，尤其是界面设计。中级界

amp Making br 的 section c++optimization architecture simd

c++ - 如何在我的项目中将 standard library 函数/方法标记为已弃用(或完全禁用)？

我正在尝试以某种方式禁用/标记为已弃用的丑陋std::string::operator=(char)重载(根据我的经验，仅在错误地将整数分配给字符串时才使用它，并导致微妙且难以跟踪的错误)。我试过:其中包含静态断言的显式特化#include#includetemplatestd::basic_string&std::basic_string::operator=(charc){static_assert(false,"Don'tusethis!");}失败为已经显式实例化了std::string[[deprecated]]属性，在不同位置应用于与上述类似的声明；我尝试过的任何立场似乎都

何在 amp code section string c++c++11 g++deprecation-warning

c++ - SIMD/SSE : How to check that all vector elements are non-zero

我需要检查所有vector元素是否非零。到目前为止，我找到了以下解决方案。有一个更好的方法吗？我在Linux/x86_64上使用gcc4.8.2，指令高达SSE4.2。typedefcharChrVect__attribute__((vector_size(16),aligned(16)));inlinebooltestNonzero(ChrVectvect){constChrVectvzero={0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0};return(0==(__int128_t)(vzero==vect));}更新:上面的代码被编译为以下汇编代码(当编译为非

amp elements code xmm section c++c gcc vectorization simd

94 95 969798 99 100