我有一个循环来反转数组中的元素。我已将问题简化并减少为以下内容:for(intx=0;x此代码反转元素,但速度相当慢。一方面,它不能自动矢量化,因为数组访问是不连续的。另一方面,右侧的访问与理想的缓存遍历相反。最后,可能存在一些停顿,因为下一个循环周期的加载不会在最后一个循环的数据提交之前发生,因为编译器可能无法判断自别名指针从未命中自身。在我的例子中,sizeof(type_copy)要么是4*sizeof(uint8_t)=4要么是4*sizeof(float)=4*4=16。因此,请注意字节级反转是NotAcceptable。我的问题是:如何优化这段代码,如果可以的话?