tiny-cuda-nn

nn.TransformerEncoderLayer中的src_mask，src_key_padding_mask解析

注意，不同版本的pytorch，对nn.TransformerEncdoerLayer部分代码差别很大，比如1.8.0版本中没有batch_first参数，而1.10.1版本中就增加了这个参数，笔者这里使用pytorch1.10.1版本实验。attentionmask要搞清楚src_mask和src_key_padding_mask的区别，关键在于搞清楚在self-attention中attentionmask的作用是啥。attetnion score=softmax(QKTdk)Vattetnion\score=softmax({QK^{T}\over\sqrtd_{k}})Vattetni

开源了 | 文心大模型ERNIE-Tiny轻量化技术，又准又快，效果全开

本文已在飞桨公众号发布，查看请戳链接：开源了！文心大模型ERNIE-Tiny轻量化技术，又准又快，效果全开大模型落地之路维艰近年来，随着深度学习技术的迅速发展，大模型预训练范式通过一次次刷新各种评测基线，证明了其卓越的学习与迁移能力。在这个过程中，研究者们发现通过不断扩大模型参数能持续提升深度学习模型的威力。然而，参数的指数级增长意味着模型体积增大、所需计算资源增多、耗时更长，这在业务方对线上响应效率的要求及机器资源预算等层面，都为大模型落地带来了极大的挑战。如何在保证效果的前提下压缩模型？如何适配CPU、GPU等多硬件的加速？如何让加速工具触手可及？这是行业内亟待解决的课题。现在，Paddl

全开文心 xff0c xff xff0 算法机器学习人工智能

AssertionError：Torch not compiled with CUDA enabled

问题来源：在进行pytorch的本地GPU版本安装过程中屡次碰壁，第一个问题是在pytorch官网给的下载命令行执行不成功，第二个是成功在本地GPU下载pytorch后执行将向量值挪到cuda0上时系统报错，内容为标题所示，这两个问题的具体解决方案如下所述。解决方法一：首先对于第一个问题，由于我本地下载的cudaversion为11.7，但是由于pytorch官网没有更新到cuda11.7版本对应的pytorch，最高版本只有cuda11.6对应的pytorch，故我选择下载cuda11.6对应的pytorch版本。值得注意的是，若你的本地cuda也同样为11.x，则不应该下载

AssertionError compiled xff0c xff xff0 机器学习人工智能深度学习

windows安装cuda简易教程

为了利用GPU进行深度学习等，或者为了安装pytorch对应版本，我们需要安装cuda。一、cuda版本选择：我们首先需要了解自己电脑能够安装的cuda版本： 1.打开NVIDIA控制面板： 2.选择：帮助->系统信息 3.点击：组件从图中我们可以看到本电脑的cuda最高可以安装10.1版本。二、cuda下载：2.1 最新版：可以不看，直接看后面简易版 1.进入cuda官网：NVIDIADeveloper 2.点击Downloads，之后点击CUDAToolkit： 3.Downloadnow：

简易 windows img img-blog xff1a 深度学习 python

python - pytorch 如何从张量中删除 cuda()

我得到了TypeError:expectedtorch.LongTensor(gottorch.cuda.FloatTensor)。如何将torch.cuda.FloatTensor转换为torch.LongTensor？Traceback(mostrecentcalllast):File"train_v2.py",line110,inmain()File"train_v2.py",line81,inmainmodel.update(batch)File"/home/Desktop/squad_vteam/src/model.py",line131,inupdateloss_adv=s

pytorch python code section torch type-conversion tensor

python - 无法编译 cuda_ndarray.cu : libcublas. so.7.5:无法打开共享对象文件

我正在尝试在aws实例中导入theano库以使用GPU。我已经使用boto编写了一个python脚本来自动执行aws设置，它基本上会从我的本地计算机对实例执行ssh，然后在我执行“python-c'importtheano'”的地方启动bash脚本启动GPU。但是我收到以下错误:ERROR(theano.sandbox.cuda):Failedtocompilecuda_ndarray.cu:libcublas.so.7.5:cannotopensharedobjectfile:Nosuchfileordirectory当我尝试在实例命令shell中直接导入theano模块时，它会自动

cuda_ndarray libcublas code section pre python amazon-web-services cuda gpu theano

python - 拟合: "not in index"时Keras GRU NN KeyError

我目前在尝试用我的训练数据拟合我的GRU模型时遇到了一个问题。快速浏览StackOverflow后，我发现这篇文章与我的问题非常相似:SimplestLstmtrainingwithKerasio我自己的模型如下:nn=Sequential()nn.add(Embedding(input_size,hidden_size))nn.add(GRU(hidden_size_2,return_sequences=False))nn.add(Dropout(0.2))nn.add(Dense(output_size))nn.add(Activation('linear'))nn.compile

amp KeyError train size batch python neural-network theano keras

python - 使用 MNIST 数据集训练的 NN 和 CNN 数字识别前的预处理

我正在尝试通过使用NN和CNN对我自己和几个friend写的手写数字进行分类。为了训练NN，使用了MNIST数据集。问题是用MNIST数据集训练的NN在我的数据集上没有给出令人满意的测试结果。我在Python和MATLAB上使用了一些具有不同设置的库，如下所列。在Python上我使用了thiscode有设置；3层NN，输入数量=784，隐藏神经元数量=30，输出数量=10代价函数=交叉熵时期数=30批量大小=10学习率=0.5使用MNIST训练集进行训练，测试结果如下:MNIST测试结果=96%在我自己的数据集上的测试结果=80%在MATLAB上我使用了deeplearningtool

训练 python 0.9922 9922 MNIST matlab ocr image-recognition

python - 将 C++/CUDA 类传递给 PyCUDA 的 SourceModule

我有一个用C++编写的类，它也使用了cuda_runtime.h中的一些定义，这是名为ADOL-C的开源项目的一部分，你可以看看here!这在我使用CUDA-C时有效，但我想以某种方式在PyCUDA中导入此类，如果有可能的话。因此，我将在内核内部(而不是在“main”中)使用此类来定义用于计算函数导数的特定变量。有没有办法将此类传递给PyCUDA的SourceModule？我问了一个类似的问题，但在这里我想多解释一下。因此，有一个解决方案使用nvcc-cubin(感谢talonmies)编译我的C代码，然后使用driver.module_from_file()导入它，但是，我想使用So

SourceModule amp code section python cuda boost-python pycuda

python - 警告 (theano.sandbox.cuda) : CUDA is installed, 但设备 gpu 不可用(错误:cuda 不可用)

在UbuntuMATE16.04中，我尝试使用GPU在此处运行深度学习python示例:testingTheanowithGPU我确实运行了示例代码，THEANO_FLAGS=mode=FAST_RUN,device=gpu,floatX=float32pythoncheck1.py不过好像用的是CPU，不是GPU。这是终端输出的最后一部分:WARNING(theano.sandbox.cuda):CUDAisinstalled,butdevicegpu0isnotavailable(error:cudaunavailable)...Usedthecpu我也试过运行这段代码:THEAN

cuda installed code pre python theano theano-cuda

83 84 858687 88 89