草庐IT

TensorFlow-CUDA-cuDNN-GPU

全部标签

c++ - 修正贝塞尔函数的精确计算 - 在 CUDA 中使用 netlib Fortran 例程?

我正在处理在CUDA中准确计算零阶I0的修正贝塞尔函数的问题。很长一段时间以来,我一直根据论文使用有理切比雪夫近似J.M.布莱尔,“修正贝塞尔函数I_0(x)和I_1(x)的有理切比雪夫近似”,数学。计算机,卷。28,名词。126,第581-583页,1974年4月。与Matlab提供的结果相比,给出了1e-29数量级的平均误差。不幸的是,对于我正在处理的新应用程序来说,这种看似很高的准确性已经不够用了。Matlab使用由D.E.开发的Fortran例程。阿摩司Amos,D.E.,“复杂参数和非负阶贝塞尔函数的子程序包”,桑迪亚国家实验室报告,SAND85-1018,1985年5月。A

c++ - C/CUDA程序输出

以下是一个CUDA编程示例,它基本上是C语言,但其中包含NVidiaCUDA函数。我一直在尝试解释这个代码示例并弄清楚它试图做什么。我的问题是这个程序编译得很好,但是它需要什么参数?例如,这个CUDA程序正在linux模拟器中运行,但是在运行./program时它返回:用法:./程序号段错误程序输入参数是什么。谢谢。#include#include//#defineN100000__host__voidsaxpy_host(intlength,floatalpha,float*x,float*y){for(inti=0;i>>(N,alpha,dxp,dyp);//bringbackd

c++ - 当数组大小大于 1,000,000 时,Cuda 未给出正确答案

我已经编写了一个简单的求和代码,在我将数组大小增加到100万之前它似乎工作得很好,这可能是问题所在。#defineBLOCK_SIZE128#defineARRAY_SIZE10000cudaError_taddWithCuda(constlong*input,long*output,inttotalBlocks,size_tsize);__global__voidsumKernel(constlong*input,long*output){inttid=threadIdx.x;intbid=blockDim.x*blockIdx.x;__shared__longdata[BLOCK_

基于LLaMA-Factory用deepspeed多GPU训练大模型报错Caught signal 7 (Bus error: nonexistent physical address)

基于LLaMA-Factory,用4个V100的GPU,如下命令训练ChatGLM3:deepspeed--num_gpus4--master_port=9901src/train_bash.py\--deepspeedds_config.json\--stagesft\--model_name_or_pathmodels/chatglm3-6b\--do_train\--datasetaaa,bbb\--templatechatglm3\--finetuning_typelora\--lora_targetquery_key_value\--output_diroutput/aaabbbcc

c++ - 在 CUDA/Thrust 中,如何在 for-each 操作期间访问 vector 元素的邻居?

我正在尝试使用CUDA中的Thrust库进行一些科学模拟,但我陷入了以下操作,这基本上是一个for-each循环:device_vectorIn(N);for-eachIn(x)inInOut(x)=some_calculation(In(x-1),In(x),In(x+1));end我已经查阅了stackoverflow.com并找到了一些类似的问题:Similarquestions1但似乎只有当some_calculation函数在2个参数之间完成时才可能使用变换迭代器,因为变换迭代器最多传递两个参数。那么,对于问题2:Similarquestions2讨论就这么结束了,还没有得出

c++ - 计算机视觉算法的 CUDA 性能

我正在CUDAC编程世界迈出我的第一步!作为第一个测试,我编写了简单的算法来对图像进行灰度转换和阈值处理(我是计算机视觉和OpenCV的粉丝!)。我决定将我的CUDA性能结果与CPU上的类似算法以及相应的OpenCV(cpu)函数进行比较。这是全高清视频的结果:FrameCount:4754FrameResolution:1920x1080TotaltimeCPU:67418.6msFrameAvgCPU:14.1814msFrameCount:4754FrameResolution:1920x1080TotaltimeOpenCV:23805.3msFrameAvgOpenCV:5.

c++ - 当检测到 Cuda API 错误 : cudaMemcpy returned (0xb) 时,如何找到程序崩溃的位置

我正在调试一个cuda程序并收到以下警告:warning:CudaAPIerrordetected:cudaMemcpyreturned(0xb)warning:CudaAPIerrordetected:cudaMemcpyreturned(0xb)warning:CudaAPIerrordetected:cudaGetLastErrorreturned(0xb)ErrorinkernelGPUassert:invalidargument当我在cuda-gdb中键入“where”时,它显示“nostack”。(cuda-gdb)whereNostack.应该如何找到我的程序崩溃的地方?

c++ - CUDA:内存限定符的非法组合

我有以下代码:主.cu:#include"class.h"intmain(){}类.h:classClass{__global__voidFunction(){};};当我使用命令nvcc-cmain.cu-omain.o编译此代码时,出现以下错误:class.h(3):warning:inlinequalifierignoredfor"global"functionclass.h(3):error:illegalcombinationofmemoryqualifiers我对这些错误中的每一个都有疑问。为什么它“忽略”函数的__global__限定符,为什么__global__内存限定

【深度学习】TensorFlow实现线性回归,代码演示。全md文档笔记(代码文档已分享)

本系列文章md笔记(已分享)主要讨论深度学习相关知识。可以让大家熟练掌握机器学习基础,如分类、回归(含代码),熟练掌握numpy,pandas,sklearn等框架使用。在算法上,掌握神经网络的数学原理,手动实现简单的神经网络结构,在应用上熟练掌握TensorFlow框架使用,掌握神经网络图像相关案例。具体包括:TensorFlow的数据流图结构,神经网络与tf.keras,卷积神经网络(CNN),商品物体检测项目介绍,YOLO与SSD,商品检测数据集训练和模型导出与部署。全套笔记和代码自取移步gitee仓库:gitee仓库获取完整文档和代码感兴趣的小伙伴可以自取哦,欢迎大家点赞转发~共9章,

10倍英伟达GPU:大模型专用芯片一夜成名,来自谷歌TPU创业团队

我们知道,大模型到GPT-3.5这种千亿体量以后,训练和推理的算力就不是普通创业公司所能承担的了,人们用起来速度也会很慢。但自本周起,这种观念已成为历史。有名为Groq的初创公司开发出一种机器学习处理器,据称在大语言模型任务上彻底击败了GPU——比英伟达的GPU快10倍,而成本仅为GPU的10%,只需要十分之一的电力。这是在Groq上运行Llama2的速度:来源:https://twitter.com/emollick/status/1759633391098732967这是Groq(Llama2)和ChatGPT面对同一个prompt的表现:图源:https://x.com/JayScamb