草庐IT

train_dataset

全部标签

memory - Keras 在调用 train_on_batch、fit 等时使用过多的 GPU 内存

我一直在搞Keras,到目前为止我喜欢它。在处理相当深的网络时,我遇到了一个大问题:在调用model.train_on_batch或model.fit等时,Keras分配的GPU内存明显多于模型本身所需的内存。这不是因为尝试在一些非常大的图像上训练造成的,而是网络模型本身似乎需要大量GPU内存。我创建了这个玩具示例来说明我的意思。这基本上是发生了什么:我首先创建了一个相当深的网络,并使用model.summary()获取网络所需的参数总数(在本例中为206538153,相当于大约826MB)。然后我使用nvidia-smi来查看Keras分配了多少GPU内存,我可以看到它非常有意义(8

python - sklearn 没有属性 'datasets'

我已经开始在我的工作中使用sckikit-learn。所以我正在通过tutorial它给出了加载一些数据集的标准程序:$python>>>fromsklearnimportdatasets>>>iris=datasets.load_iris()>>>digits=datasets.load_digits()但是,为了方便起见,我尝试通过以下方式加载数据:In[1]:importsklearnIn[2]:iris=sklearn.datasets.load_iris()但是,这会引发以下错误:------------------------------------------------

python - 来自 tensorflow /模型的警告 : Please use alternatives such as official/mnist/dataset. py

我正在使用Tensorflow做一个简单的教程,我刚刚安装了它应该更新它,首先我使用以下代码加载mnist数据:importnumpyasnpimportosfromtensorflow.examples.tutorials.mnistimportinput_dataos.environ['TF_CPP_MIN_LOG_LEVEL']='3'mnist=input_data.read_data_sets("MNIST_data/",one_hot=True)train_data=mnist.train.images#Returnsnp.arraytrain_labels=np.asar

python - PyMC3 贝叶斯线性回归预测与 sklearn.datasets

我一直在尝试使用带有REALDATA的PyMC3实现贝叶斯线性回归模型(即不是来自线性函数+高斯噪声)来自sklearn.datasets中的数据集。我选择了形状为(442,10)的属性数量最少的回归数据集(即load_diabetes());即442个样本和10个属性。我相信我的模型工作正常,后验看起来足够好,可以尝试和预测以弄清楚这些东西是如何工作的,但是......我意识到我不知道如何使用这些贝叶斯模型进行预测!我试图避免使用glm和patsy表示法,因为我很难理解使用它时实际发生了什么。我尝试了以下操作:Generatingpredictionsfrominferredpara

python - TensorFlow - tf.data.Dataset 读取大型 HDF5 文件

我正在设置一个TensorFlow管道,用于读取大型HDF5文件作为我的深度学习模型的输入。每个HDF5文件包含100个可变大小长度的视频,这些视频存储为压缩JPG图像的集合(以使磁盘上的大小易于管理)。使用tf.data.Dataset和到tf.py_func的映射,使用自定义Python逻辑从HDF5文件中读取示例非常容易。例如:defread_examples_hdf5(filename,label):withh5py.File(filename,'r')ashf:#readframesfromHDF5anddecodethemfromJPGreturnframes,labelf

python - sklearn train_test_split;保留训练集中列中的唯一值

有没有办法使用sklearn.model_selection.train_test_split保留训练集中特定列的所有唯一值。让我举个例子。我知道的最常见的矩阵分解问题是预测用户在NetflixChallenge中所说的电影评分。或Movielens数据集。现在这个问题并不真正围绕任何单一的矩阵分解方法,但在可能的范围内,有一个小组将只对已知的用户和项目组合进行预测。例如,在Movielens100k中,我们有943个独立用户和1682个独立电影。如果我们使用train_test_split即使train_size比率很高(比如0.9),唯一用户和电影的数量也不会相同。这带来了一个问题

python - 带有opencv 3.0的cv2中的KNN train()

我正在尝试使用cv2(python2.7)和opencv3.0运行k最近邻。我使用http://docs.opencv.org/3.0-beta/doc/py_tutorials/py_ml/py_knn/py_knn_understanding/py_knn_understanding.html之类的代码复制了相同的错误消息:importcv2importnumpyasnpimportmatplotlib.pyplotasplt#Featuresetcontaining(x,y)valuesof25known/trainingdatatrainData=np.random.randi

python - model.train() 在 PyTorch 中做了什么?

它是否在nn.Module中调用forward()?我想当我们调用模型时,正在使用forward方法。为什么我们需要指定train()? 最佳答案 model.train()告诉您的模型您正在训练模型。这有助于通知诸如Dropout和BatchNorm等层,这些层旨在在训练和评估期间表现不同。例如,在训练模式下,BatchNorm更新每个新批处理的移动平均值;而对于评估模式,这些更新被卡住。更多详情:model.train()设置训练模式(见sourcecode)。您可以调用model.eval()或model.train(mode

python - Dataset.from_tensors 和 Dataset.from_tensor_slices 有什么区别?

我有一个表示为形状为(num_features,num_examples)的NumPy矩阵的数据集,我希望将其转换为TensorFlow类型tf.Dataset。我正在努力理解这两种方法之间的区别:Dataset.from_tensors和Dataset.from_tensor_slices。什么是正确的,为什么?TensorFlow文档(link)说这两种方法都接受张量的嵌套结构,尽管在使用from_tensor_slices时,张量在第0维中应该具有相同的大小。 最佳答案 from_tensors组合输入并返回具有单个元素的数据

python - Seaborn load_dataset

我正在尝试根据example使用Seaborn制作分组箱线图。我可以让上面的例子工作,但是行:tips=sns.load_dataset("tips")根本没有解释。我找到了tips.csv文件,但似乎找不到关于load_dataset具体功能的足够文档。我试图创建自己的csv并加载它,但无济于事。我还重命名了提示文件,它仍然有效......我的问题是:load_dataset实际上在哪里寻找文件?我真的可以将它用于我自己的箱线图吗?编辑:我设法使用我自己的DataFrame让我自己的箱线图工作,但我仍然想知道load_dataset是否用于神秘教程示例之外的任何其他内容。