dataSet

python - 从 Tensorflow 中的多个 tf.data.Datasets 中随机抽样

假设我有N个tf.data.Datasets和一个N概率列表(总和为1)，现在我想创建数据集，这样的例子是以给定的概率从N个数据集中采样。我希望它适用于任意概率->简单的zip/concat/flatmap以及来自每个数据集的固定数量的示例可能不是我想要的。是否可以在TF中执行此操作？谢谢! 最佳答案从1.12开始，tf.data.experimental.sample_from_datasets提供了以下功能:https://www.tensorflow.org/api_docs/python/tf/data/experimen

python - tf.data.Dataset.padded_batch 以不同方式填充每个特征

我有一个包含3个不同特征的tf.data.Dataset实例label这是一个标量sequence_feature这是一个标量序列seq_of_seqs_feature这是序列特征的序列我正在尝试使用tf.data.Dataset.padded_batch()生成填充数据作为我模型的输入-我想以不同方式填充每个特征。示例批处理:[{'label':24,'sequence_feature':[1,2],'seq_of_seqs_feature':[[11.1,22.2],[33.3,44.4]]},{'label':32,'sequence_feature':[3,4,5],'seq_

padded_batch Dataset code feature 39 python tensorflow tensorflow-datasets

python - 如何使用 Dataset API 读取变长列表的 TFRecords 文件？

我想使用Tensorflow的数据集API读取可变长度列表的TFRecords文件。这是我的代码。def_int64_feature(value):#valuemustbeanumpyarray.returntf.train.Feature(int64_list=tf.train.Int64List(value=value))defmain1():#WriteanarraytoTFrecord.#aisanarraywhichcontainslistsofvariantlength.a=np.array([[0,54,91,153,177],[0,50,89,147,196],[0,3

TFRecords Dataset python example features tensorflow tfrecord

python - 如何按特定值过滤 tf.data.Dataset？

我通过读取TFRecords创建了一个数据集，我映射了值，我想过滤数据集的特定值，但由于结果是一个带有张量的字典，我无法获得张量的实际值或用tf.cond()/tf.equal检查它。我该怎么做？defmapping_func(serialized_example):feature={'label':tf.FixedLenFeature([1],tf.string)}features=tf.parse_single_example(serialized_example,features=feature)returnfeaturesdeffilter_func(features):#th

Dataset python code label tensorflow tensorflow-datasets

python - TensorFlow tf.data.Dataset 和分桶

对于LSTM网络，我看到分桶有很大的改进。我遇到了bucketingsectionintheTensorFlowdocs哪个(tf.contrib)。虽然在我的网络中，我使用的是tf.data.DatasetAPI，特别是我正在使用TFRecords，所以我的输入管道看起来像这样dataset=tf.data.TFRecordDataset(TFRECORDS_PATH)dataset=dataset.map(_parse_function)dataset=dataset.map(_scale_function)dataset=dataset.shuffle(buffer_size=1

TensorFlow Dataset code section python tensorflow-datasets

python - Keras model.fit() 与 tf.dataset API + validation_data

所以我通过以下代码让我的keras模型与tf.Dataset一起工作:#Initializebatchgenerators(returnstf.Dataset)batch_train=build_features.get_train_batches(batch_size=batch_size)#CreateTensorFlowIteratorobjectiterator=batch_train.make_one_shot_iterator()dataset_inputs,dataset_labels=iterator.get_next()#CreateModellogits=.....

validation_data validation batch train iterator python tensorflow keras

python - 在 Tensorflow 的 Dataset API 中，如何将一个元素映射为多个元素？

在tensorflowDataset管道中，我想定义一个自定义映射函数，它采用单个输入元素(数据样本)并返回多个元素(数据样本)。下面的代码是我的尝试，以及我想要的结果。我无法很好地遵循有关tf.data.Dataset().flat_map()的文档，无法理解它是否适用于此处。importtensorflowastfinput=[10,20,30]defmy_map_func(i):return[[i,i+1,i+2]]#Fyi[[i],[i+1],[i+2]]throwsanexceptionds=tf.data.Dataset.from_tensor_slices(input

Tensorflow Dataset input code python tensorflow-datasets

Python 和 lmfit : How to fit multiple datasets with shared parameters?

我想使用lmfit使函数适合可变数量的数据集的模块，具有一些共享参数和一些单独参数。这是一个生成高斯数据并分别拟合每个数据集的示例:importnumpyasnpimportmatplotlib.pyplotaspltfromlmfitimportminimize,Parameters,report_fitdeffunc_gauss(params,x,data=[]):A=params['A'].valuemu=params['mu'].valuesigma=params['sigma'].valuemodel=A*np.exp(-(x-mu)**2/(2.*sigma**2))ifd

parameters datasets params fit_params fit python curve-fitting lmfit

python - 如何在 tf.data.Dataset 中输入不同大小的列表列表

我有一长串整数列表(代表句子，每个句子都有不同的大小)，我想使用tf.data库提供它们。每个列表(列表的列表)都有不同的长度，我得到一个错误，我可以在这里重现:t=[[4,2],[3,4,5]]dataset=tf.data.Dataset.from_tensor_slices(t)我得到的错误是:ValueError:Argumentmustbeadensetensor:[[4,2],[3,4,5]]-gotshape[2],butwanted[2,2].有办法吗？编辑1:明确地说，我不想填充列表的输入列表(这是一个包含超过一百万个元素的句子列表，长度不同)我想使用tf.data库

同大何在 section code Dataset python tensorflow tensorflow-datasets

python - 朴素贝叶斯 : Imbalanced Test Dataset

我正在使用scikit-learn多项式朴素贝叶斯分类器进行二进制文本分类(分类器告诉我文档是否属于类别X)。我使用平衡数据集来训练我的模型，并使用平衡测试集来测试它，结果非常有希望。这个分类器需要实时运行并不断分析随机扔给它的文档。但是，当我在生产环境中运行我的分类器时，误报的数量非常多，因此我最终的精度非常低。原因很简单:分类器在实时场景中遇到了更多的负样本(大约90%的时间)，这与我用于测试和训练的理想平衡数据集不符。有没有一种方法可以在训练期间模拟这个实时案例，或者有什么技巧可以使用(包括对文档进行预处理以查看它们是否适合分类器)？我计划使用与实时案例中比例相同的不平衡数据集来

贝叶朴素 section 阳性 python machine-learning classification scikit-learn text-classification

26 27 282930 31 32