开销

c++ - std::static_pointer_cast 是否有任何额外的运行时开销？

相对于static_cast，即。所以，如果我们有这两个类型转换Base*b(newDerived());Derived*d=static_cast(b);//(1)shared_ptrb(newDerived());shared_ptrd=static_pointer_cast(b);//(2)第(2)行会比第(1)行慢吗？最佳答案是的，它有更多的开销，因为它必须返回一个新的shared_ptr而不是一个新的原始指针。boost实现是:templateshared_ptrstatic_pointer_cast(shared_p

没有动态调度开销的基类抽象方法的 C++ 习惯用法？

在C++中，是否有任何方法可以在不将方法声明为的情况下拥有“抽象”基类方法(即，从基类声明和调用，但在子类中实现)虚拟?当然，这个问题只适用于不需要多态性的情况(从未使用过的基类型的指针/引用)。请考虑以下事项:#defineNO_OPTasmvolatile("");//topreventsomecompileroptimizationtemplatevoiddoSomething(DerivedType&d){d.foo();}namespacetest1{structBase{inlinevoidfoo(){//...docommonstuffpre-call...foo_imp

用法 amp code foo_impl void c++c++11

c++ - 返回(大)对象时复制开销？

考虑以下两个简单的Matrix4x4Identity方法的实现。1:这个以一个Matrix4x4引用为参数，直接写入数据。staticvoidCreateIdentity(Matrix4x4&outMatrix){for(inti=0;i2:这个返回Matrix4x4而不接受任何输入。staticMatrix4x4CreateIdentity(){Matrix4x4outMatrix;for(inti=0;i现在，如果我想实际创建一个单位矩阵，我必须这样做Matrix4x4mat;Matrix4x4::CreateIdentity(mat);对于第一个变体和Matrix4x4mat=M

时复 amp Matrix4 Matrix expression c++c++11

c++ - Intel TBB 并行化开销

为什么英特尔线程构建模块(TBB)parallel_for的开销如此之大？根据Tutorial.pdf中的3.2.2AutomaticChunking部分，它大约需要半毫秒。这是教程中的一个例子:CAUTION:Typicallyaloopneedstotakeatleastamillionclockcyclesforparallel_fortoimproveitsperformance.Forexample,aloopthattakesatleast500microsecondsona2GHzprocessormightbenefitfromparallel_for.根据我目前所读到

amp Intel section code parallel c++lock-free overhead tbb parallel-processing

c++ - OpenCL 或 CUDA 调用的开销？

我正在编写一个函数来处理很多BLASgemv操作。我希望能够在GPU上执行此操作，并且我已尝试使用cuBlas。我的问题是我的矩阵和vector相当小，100x100矩阵和100vector。与CPU相比，CuBlas需要很长时间，我知道为什么，CPU上的快速缓存和调用GPU的大量开销混合在一起。因此，我正在尝试找出一种聪明的方法来测量将调用传递给GPU所需的时间。这是CUDA设置调用并将其发送到图形处理器所花费的时间——不包括执行矩阵vector乘法实际花费的时间。我该怎么做？最佳答案更新:以下结果是针对2005硬件(nVid

amp OpenCL GPU section CPU c++cuda gpgpu timing

c++ - c/c++中指针的内存开销

我在64位平台上，所以所有内存地址都是8个字节。因此，为了估计一个数组的内存使用情况，我应该为数组中的每个条目向sizeof(DATATYPE)添加8个字节。例子:shortunsignedint*ary=newshortunsignedint[1000000];//length1mio//sizeof(shortunsingedint)=2bytes//sizeof(shortunsingedint*)=8bytes那么每个条目占用10bytes吗？因此，我的1mio长度数组会使用至少10兆字节吗？谢谢最佳答案不，您不会获得每

amp 43 code section 76543210 c++c memory pointers overhead

c++ - 为什么 "dynamic exception"保证会导致开销？

在C++11中，这已被弃用:voidfoo()throw();并替换为voidfoo()noexcept;在thisarticle据解释，这样做的原因(除其他外，归结为同一件事)是C++exceptionspecificationsarecheckedatruntimeratherthanatcompiletime,sotheyoffernoprogrammerguaranteesthatallexceptionshavebeenhandled.虽然这对我来说确实有意义，但我不明白为什么首先要动态检查throw()，或者为什么noexcept不提供异常保证除了调用std::termin

amp exception code section noexcept c++c++11 throw

c++ - parallel_for (Inter TBB) 是否存在类似于我们在 std::function 上看到的开销？

在此链接中std::functionvstemplate关于std::function的开销有一个很好的讨论。基本上，要避免传递给std::function构造函数的仿函数的堆分配造成10倍的开销，您必须使用std::ref或std::cref。取自@CassioNeri答案的示例显示了如何通过引用将lambda传递给std::function。floatfoo(std::functionf){return-1.0f*f(3.3f)+666.0f;}foo(std::cref([a,b,c](floatarg){returnarg*0.5f;}));现在，IntelThreadBuil

parallel_for amp parallel code c++c++11 tbb

c++ - 执行 identity boost::lexical_cast 有什么开销？

给定一个函数，例如:templatevoidfunction1(constT&t){function2(boost::lexical_cast(t));}如果传递给function1的类型已经是std::string，会产生什么样的开销？开销是否会根据我要lexical_cast-ing的类型而有所不同？做一个重载函数来绕过强制转换是多余的吗？例如:voidfunction1(conststd::string&t){function2(t);}templatevoidfunction1(constT&t){function1(boost::lexical_cast(t));}boost

lexical_cast amp code lexical c++boost lexical-cast

c# - 开销 - 从 C# 调用 C++ 函数

我正在从C#调用两个C++函数。在大约100万次调用的迭代中执行此操作时，我发现开销约为30%。C++函数:EXTERN_CvoidSTDAPICALLTYPEFunctionA(UINT_PTRmathId){......}在我的C#程序集dll中:[DllImport("CPlusPlus.dll")]publicstaticexternvoidFunctionA([In]IntPtrmathID);调用函数如下:publicstaticvoidHelpingFunction([In]UInt64mathID){FunctionA((IntPtr)mathID);}当“Helpin

c#section code c++pinvoke marshalling

4 5 678 9 10