Scikit-Learn-Keras

python - 使用 keras tokenizer 处理不在训练集中的新词

我目前正在使用KerasTokenizer创建单词索引，然后将该单词索引与导入的GloVe词典进行匹配以创建嵌入矩阵。然而，我遇到的问题是，这似乎打败了使用词向量嵌入的优势之一，因为当使用经过训练的模型进行预测时，如果它遇到一个不在分词器的词索引中的新词，它会将其从序列中删除.#fitthetokenizertokenizer=Tokenizer()tokenizer.fit_on_texts(texts)word_index=tokenizer.word_index#loadgloveembeddingintoadictembeddings_index={}dims=100glove

新词 tokenizer embedding section python machine-learning nlp deep-learning keras

python - 如何在 scikit-learn 中使用管道调整自定义内核函数的参数

目前我已经使用def函数成功定义了一个自定义内核函数(预计算内核矩阵)，现在我正在使用GridSearchCV函数来获取最佳参数。因此，在自定义内核函数中，总共有2个参数需要调整(即下例中的gamm和sea_gamma)，而且对于SVR模型，costc参数也必须调整。但直到现在，我只能使用GridSearchCV调整costc参数->请参阅下面的第一部分:示例。我已经搜索了一些类似的解决方案，例如:Isitpossibletotuneparameterswithgridsearchforcustomkernelsinscikit-learn?它说“一种方法是使用Pipeline、SVC

自定何在 train self kernel python scikit-learn svm pipeline grid-search

python - Scikit K 均值聚类性能度量

我正在尝试使用K-means方法进行聚类，但我想衡量聚类的性能。我不是专家，但我渴望了解有关聚类的更多信息。这是我的代码:importpandasaspdfromsklearnimportdatasets#loadingthedatasetiris=datasets.load_iris()df=pd.DataFrame(iris.data)#K-Meansfromsklearnimportclusterk_means=cluster.KMeans(n_clusters=3)k_means.fit(df)#K-meanstrainingy_pred=k_means.predict(df)

python Scikit code prediction section machine-learning scikit-learn cluster-analysis sklearn-pandas

python - 为什么我会收到 Keras LSTM RNN input_shape 错误？

我不断从以下代码中收到input_shape错误。fromkeras.modelsimportSequentialfromkeras.layers.coreimportDense,Activation,Dropoutfromkeras.layers.recurrentimportLSTMdef_load_data(data):"""datashouldbepd.DataFrame()"""n_prev=10docX,docY=[],[]foriinrange(len(data)-n_prev):docX.append(data.iloc[i:i+n_prev].as_matrix())

input_shape python input model train time-series deep-learning keras lstm

python - scikit 学习中的样本权重和类权重选项有什么区别？

我有类(class)不平衡问题，想使用成本敏感学习来解决这个问题。欠采样和过采样赋予类权重以使用修改后的损失函数问题Scikitlearn有2个选项，称为类权重和样本权重。样本权重实际上是在执行选项2)和类别权重选项1)。选项2)是处理类不平衡的推荐方法。最佳答案这是相似的概念，但使用sample_weights可以强制估计器更加关注某些样本，使用class_weights可以强制估计器关注某些特定类进行学习。sample_weight=0或class_weight=0基本上意味着估计器根本不需要在学习过程中考虑这些样本/类。因

python scikit section class weight machine-learning scikit-learn classification

python - 是否可以在 tensorboard 中可视化 keras 嵌入？

keras能够使用keras.callbacks.TensorBoard以张量板兼容格式导出它的一些训练数据。但是，它不支持embeddingvisualisation在张量板上。有解决办法吗？最佳答案找到解决方案:importosimportkerasimporttensorflowROOT_DIR='/tmp/tfboard'os.makedirs(ROOT_DIR,exist_ok=True)OUTPUT_MODEL_FILE_NAME=os.path.join(ROOT_DIR,'tf.ckpt')#getthekera

tensorboard python embedding section name tensorflow keras

python - 使用 numpy/scikit 函数保持 pandas 结构

我正在使用来自pandas的出色的read_csv()函数，它给出:In[31]:data=pandas.read_csv("lala.csv",delimiter=",")In[32]:dataOut[32]:Int64Index:12083entries,0to12082Columns:569entries,REGIONCtoSCALEKERdtypes:float64(51),int64(518)但是当我应用来自scikit-learn的函数时，我丢失了有关列的信息:fromsklearnimportpreprocessingpreprocessing.scale(data)给出

python pandas code section numpy scikit-learn

python - 如何将预测序列转换回keras中的文本？

我有一个序列到序列学习模型，它运行良好并且能够预测一些输出。问题是我不知道如何将输出转换回文本序列。这是我的代码。fromkeras.preprocessing.textimportTokenizer,base_filterfromkeras.preprocessing.sequenceimportpad_sequencesfromkeras.modelsimportSequentialfromkeras.layersimportDensetxt1="""Whatmakesthisproblemdifficultisthatthesequencescanvaryinlength,bec

python keras section sequences model keras-layer sequence-to-sequence

python - 在 model.fit() 期间记录 Keras 中每个时期的计算时间

我想比较不同模型之间的计算时间。在拟合期间，每个时期的计算时间被打印到控制台。Epoch5/5160000/160000[==============================]-**10s**......我正在寻找一种方法来存储这些时间，其方式类似于保存在每个时期中并可通过历史对象获取的模型指标。最佳答案尝试以下回调:classTimeHistory(keras.callbacks.Callback):defon_train_begin(self,logs={}):self.times=[]defon_epoch_beg

时期 python section time code machine-learning neural-network deep-learning keras

python - Keras:如何在顺序模型中获取图层形状

我想访问SequentialKeras模型中所有层的层大小。我的代码:model=Sequential()model.add(Conv2D(filters=32,kernel_size=(3,3),input_shape=(64,64,3)))model.add(MaxPooling2D(pool_size=(3,3),strides=(2,2)))然后我想要像下面这样的一些代码来工作forlayerinmodel.layers:print(layer.get_shape())..但事实并非如此。我收到错误:AttributeError:'Conv2D'objecthasnoattri

何在 python code section model tensorflow deep-learning keras theano

31 32 333435 36 37