前几天我在玩游戏,想看看我能优化到什么程度。我决定从一个简单的 map 开始,它只进行线性搜索以查找元素是否存在,然后尝试优化其中的大部分内容。此外,为了进行比较,我使用 std::find 对 std::map 和 std::vector 执行相同的操作。
map 的结果是预期的,创建和销毁比我的 map 慢,但速度快得多(实际上,我一直无法测量它,它总是返回0)。 问题在于 std::vector。我预计它会比我的实现慢,但事实并非如此,而且我真的不明白它怎么可能相同或更快,因为我的实现跳过了最坏的情况(值不在 vector 中)并且是使用结果缓存。
任何人都可以在这里阐明一些问题吗?我知道 STL 背后的家伙是半神,但这仍然没有意义。
基准测试结果(i3、Windows 8.1 Pro 64、Visual Studio 2013):
std::vector :
Build : 85.0042 ms
Loop : 37.0011 ms
Find : 1.82259 ms -> First : Found, Second : Found, Third : Not Found
Release : 0 ms
--------------------
std::map :
Build : 6929.41 ms
Loop : 570.032 ms
Find : 0 ms -> First : Found, Second : Found, Third : Not Found
Release : 1425.08
--------------------
Linear Map V0:
Build : 194.012 ms
Loop : 49.0052 ms
Find : 1.88915 ms -> First : Found, Second : Found, Third : Not Found
Release : 109.004
这是 map 的代码:
template<typename T>
class LinearMap0
{
public:
LinearMap0()
{
_end = _root = new Node;
_prebuffer = nullptr;
prebufferCapacity = 0;
_alive = true;
prebufferMarker = 0;
_cache = _mm_set1_epi32(-1);
for (auto& ptr : _cacheBuffer) ptr = nullptr;
MinID = INT32_MAX - 1;
MaxID = -1;
}
void PreAllocate(int Count)
{
prebufferCapacity = Count;
_prebuffer = new Node[Count];
}
~LinearMap0()
{
if (_alive)
{
Release();
}
}
void Release()
{
Node* marker = _end;
while (marker->Prev)
{
marker = marker->Prev;
if (!marker->Next->IsPreAllocated) delete marker->Next;
}
if (!_root->IsPreAllocated) delete _root;
delete[] _prebuffer;
_alive = false;
}
void AddElement(int ID,T element)
{
Node* tmp = nullptr;
if (prebufferMarker < prebufferCapacity)
{
// Use a pre-allocated object
tmp = &_prebuffer[prebufferMarker];
prebufferMarker++;
tmp->IsPreAllocated = true;
}
else
{
tmp = new Node;
}
tmp->ID = ID;
tmp->Data = element;
// Update list
_end->Next = tmp;
Node* prevEnd = _end;
_end = tmp;
_end->Prev = prevEnd;
bool isMin = ID < MinID; MinID = ID * isMin + (1 - isMin) * MinID;
bool isMax = ID > MaxID; MaxID = ID * isMax + (1 - isMax) * MaxID;
}
void DeleteLast()
{
Node* tmp = _end;
_end = _end->Prev;
_end->Next = nullptr;
delete tmp;
}
template<class Function>
void Loop(Function&& f, bool Forward = true)
{
if (Forward)
{
Node* marker = _root;
while (marker->Next)
{
marker = marker->Next;
f(marker->Data);
}
}
else
{
Node* marker = _end;
while (marker->Prev)
{
marker = marker->Prev;
f(marker->Data);
}
}
}
T* Find(int ID)
{
// Bounds check
if (ID < MinID || ID > MaxID) return nullptr;
// Check it it's in the cache
// Compare the value to every value in the cache
__m128i idxSSE = _mm_set1_epi32(ID);
__m128i C = _mm_cmpeq_epi32(_cache, idxSSE);
// To change form -1 to 1
C = _mm_mul_epi32(C, _mm_set1_epi32(-1));
// Now C holds 1 if true, or 0 if false (in each of its 4 members). It should only be ONE set at 1
__m128i tmp = _mm_set1_epi32(1);
__m128i S = _mm_sub_epi32(tmp, C);
// Now find the index
int i = S.m128i_i32[0] * (C.m128i_i32[1] + S.m128i_i32[1] * (2 * C.m128i_i32[2] + S.m128i_i32[2] * (3 * C.m128i_i32[3] + S.m128i_i32[3] * -1)));
if (i != -1)
return _cacheBuffer[i];
// Traverse the list
Node* marker0 = _root;
T* obj = nullptr;
while (true)
{
if (marker0->ID == ID)
{
obj = &marker0->Data;
}
if (marker0->Next) marker0 = marker0->Next; else break;
}
// Cache value and return
_cache.m128i_i32[cacheMarker] = ID;
_cacheBuffer[cacheMarker] = obj;
cacheMarker = (cacheMarker + 1) & 3; // x & 3 = x % 4
return obj;
}
private:
struct Node
{
Node()
{
Prev = nullptr;
Next = nullptr;
IsPreAllocated = false;
ID = -1;
}
T Data;
Node* Prev;
Node* Next;
bool IsPreAllocated;
int ID;
};
Node* _root;
Node* _end;
Node* _prebuffer;
int prebufferCapacity;
int prebufferMarker;
bool _alive;
__m128i _cache;
T* _cacheBuffer[4];
int cacheMarker;
int MinID, MaxID;
};
这是基准:
// Initialize seeds
const __int64 ecount = 5 * 1000*1000;
vector<__int64> seed(ecount);
for (__int64 i = 0; i < ecount; i++)
{
seed[i] = i;
}
random_shuffle(seed.begin(), seed.end());
///////////// std::vector
vector<__int64> v;
cout << "--------------------" << endl;
cout << "std::vector :" << endl;
cout << " Build : " << time_call([&]()
{
v.resize(ecount/2);
for (__int64 i = 0; i < ecount; i++)
{
if (i < (ecount / 2))
v[i] = seed[i];
else
v.push_back(seed[i]);
}
}) << " ms" << endl;
cout << " Loop : " << time_call([&]()
{
for (auto& n : v)
n /= 2;
}) << " ms" << endl;
bool found1, found2, found3;
cout << " Find : " << (((float)time_call([&]()
{
for (int i = 0; i < 15; i++)
{
// Should exist
found1 = find(v.begin(), v.end(), seed[5] / 2) != v.end();//find(seed[5]) != m.end();
found2 = find(v.begin(), v.end(), seed[1000] / 2) != v.end();
// Shouldn't exist
found3 = find(v.begin(), v.end(), -1234) != v.end();
}
})) / 15.0) / 3.0;
cout << " ms " << " -> First : " << ((found1) ? "Found" : "Not Found") << ", Second : " << ((found2) ? "Found" : "Not Found") << ", Third : " << ((found3) ? "Found" : "Not Found") << endl;
cout << " Release : " << time_call([&]()
{
v.clear();
}) << " ms" << endl;
///////////// std::map
map<__int64, __int64> m;
cout << "--------------------" << endl;
cout << "std::map :" << endl;
cout << " Build : " << time_call([&]()
{
for (__int64 i = 0; i < ecount; i++)
{
m[seed[i]] = seed[i];
}
}) << " ms" << endl;
cout << " Loop : " << time_call([&]()
{
for (auto& n : m)
n.second /= 2;
}) << " ms" << endl;
cout << " Find : " << (((float)time_call([&]()
{
for (int i = 0; i < 15; i++)
{
// Should exist
found1 = m.find(seed[5]) != m.end();
found2 = m.find(seed[1000]) != m.end();
// Shouldn't exist
found3 = m.find(-1234) != m.end();
}
})) / 15.0) / 3.0;
cout << " ms " << " -> First : " << ((found1) ? "Found" : "Not Found") << ", Second : " << ((found2) ? "Found" : "Not Found") << ", Third : " << ((found3) ? "Found" : "Not Found") << endl;
cout << " Release : " << time_call([&]()
{
m.clear();
}) << endl;
///////////// Linear Map V0
LinearMap0<__int64> c;
cout << "--------------------" << endl;
cout << "Linear Map V0:" << endl;
cout << " Build : " << time_call([&]()
{
c.PreAllocate(ecount / 2);
for (__int64 i = 0; i < ecount; i++)
{
c.AddElement(seed[i],seed[i]);
}
}) << " ms" << endl;
cout << " Loop : " << time_call([&]()
{
c.Loop([](__int64& Data)
{
Data /= 2;
});
}) << " ms" << endl;
cout << " Find : " << (((float)time_call([&]()
{
for (int i = 0; i < 15; i++)
{
// Should exist
found1 = c.Find(seed[5]);
found2 = c.Find(seed[1000]);
// Shouldn't exist
found3 = c.Find(-1234);
}
})) / 15.0) / 3.0;
cout << " ms -> First : " << ((found1) ? "Found" : "Not Found") << ", Second : " << ((found2) ? "Found" : "Not Found") << ", Third : " << ((found3) ? "Found" : "Not Found") << endl;
cout << " Release : " << time_call([&]()
{
c.Release();
}) << endl;
编辑:time_call 是:
template <class Function>
double time_call(Function&& f)
{
chrono::time_point<chrono::high_resolution_clock> start, end;
start = chrono::high_resolution_clock::now();
f();
end = chrono::high_resolution_clock::now();
return ((double)(chrono::duration_cast<chrono::nanoseconds>(end - start).count())) / 1000000.0;
}
最佳答案
您的容器是一个链表,而 std::vector 是一个动态大小的数组。
链表方法有很多好处,例如无需重新分配即可插入元素。
但是数组方法有一些显着的优点:
-O3 进行编译,那么编译器可能会使用 std::find 的矢量化版本。由于内存依赖性,不可能对链表扫描进行矢量化。next 指针,它有效地使您的元素更大。此外,每个非预分配的 Node 都必须支付分配器的开销(即 new 和 delete 的会计数据)。这意味着您会更快地达到内存带宽限制,并且可以在缓存中容纳更少的元素。关于c++ - 为什么 std::vector 这么快(或者我的实现太慢了),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19985827/
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
我有一个模型:classItem项目有一个属性“商店”基于存储的值,我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式?如果方法中没有大的if-else语句,这是如何干净利落地完成的? 最佳答案 通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
为什么4.1%2返回0.0999999999999996?但是4.2%2==0.2。 最佳答案 参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意,这不是与Ruby相关的问题,而是与所有编程语言相关的问题,因为它来自计算机表示实数的方式。 关于ruby-为什么4.1%2使用Ruby返
我的瘦服务器配置了nginx,我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例,但找不到好的解决方案。有没有人能做到这一点? 最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器,例如server{listen80;server
它不等于主线程的binding,这个toplevel作用域是什么?此作用域与主线程中的binding有何不同?>ruby-e'putsTOPLEVEL_BINDING===binding'false 最佳答案 事实是,TOPLEVEL_BINDING始终引用Binding的预定义全局实例,而Kernel#binding创建的新实例>Binding每次封装当前执行上下文。在顶层,它们都包含相同的绑定(bind),但它们不是同一个对象,您无法使用==或===测试它们的绑定(bind)相等性。putsTOPLEVEL_BINDINGput
我可以得到Infinity和NaNn=9.0/0#=>Infinityn.class#=>Floatm=0/0.0#=>NaNm.class#=>Float但是当我想直接访问Infinity或NaN时:Infinity#=>uninitializedconstantInfinity(NameError)NaN#=>uninitializedconstantNaN(NameError)什么是Infinity和NaN?它们是对象、关键字还是其他东西? 最佳答案 您看到打印为Infinity和NaN的只是Float类的两个特殊实例的字符串
如果您尝试在Ruby中的nil对象上调用方法,则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而,有一个tryRails中的方法,如果它被发送到一个nil对象,它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常? 最佳答案 像Ruby中的所有其他对象
关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion为什么SecureRandom.uuid创建一个唯一的字符串?SecureRandom.uuid#=>"35cb4e30-54e1-49f9-b5ce-4134799eb2c0"SecureRandom.uuid方法创建的字符串从不重复?