Scikit-Learn-Keras

python - 高斯混合模型 : Difference between Spark MLlib and scikit-learn

我正在尝试对数据集样本使用高斯混合模型。我同时使用了MLlib(与pyspark)和scikit-learn，得到了截然不同的结果，scikit-learn一个看起来更逼真。frompyspark.mllib.clusteringimportGaussianMixtureasSparkGaussianMixturefromsklearn.mixtureimportGaussianMixturefrompyspark.mllib.linalgimportVectorsScikit-learn:local=pd.DataFrame([x.asDict()forxindf.sample(0.

python - Keras LSTM 自动编码器时间序列重建

我正在尝试使用LSTM自动编码器(Keras)重建时间序列数据。现在我想在少量样本上训练自动编码器(5个样本，每个样本有500个时间步长并且有1个维度)。我想确保该模型可以重建这5个样本，然后我将使用所有数据(6000个样本)。window_size=500features=1data=data.reshape(5,window_size,features)model=Sequential()model.add(LSTM(256,input_shape=(window_size,features),return_sequences=True))model.add(LSTM(128,in

python Keras window_size model features time-series lstm autoencoder

python - 你能修复 scikit 学习中分类器的假阴性率吗

我正在使用RandomForestclassifer在scikit中学习两个类的不平衡数据集。与误报相比，我更担心假阴性。是否可以固定假阴性率(比如1%)并要求scikit以某种方式优化假阳性率？如果这个分类器不支持，是否有另一个分类器支持？最佳答案我相信sklearn中类不平衡的问题可以通过使用class_weight参数来部分解决。这个参数要么是一个字典，其中每个类都被分配了一个统一的权重，要么是一个字符串，告诉sklearn如何构建这个字典。例如，将此参数设置为“自动”，将按其频率的倒数对每个类别进行加权。通过为较少出现的

阴性 python section strong scikit-learn

python - 你能修复 scikit 学习中分类器的假阴性率吗

我正在使用RandomForestclassifer在scikit中学习两个类的不平衡数据集。与误报相比，我更担心假阴性。是否可以固定假阴性率(比如1%)并要求scikit以某种方式优化假阳性率？如果这个分类器不支持，是否有另一个分类器支持？最佳答案我相信sklearn中类不平衡的问题可以通过使用class_weight参数来部分解决。这个参数要么是一个字典，其中每个类都被分配了一个统一的权重，要么是一个字符串，告诉sklearn如何构建这个字典。例如，将此参数设置为“自动”，将按其频率的倒数对每个类别进行加权。通过为较少出现的

阴性 python section strong scikit-learn

python - 如何存储 TfidfVectorizer 以备将来在 scikit-learn 中使用？

我有一个TfidfVectorizer可以矢量化文章集合，然后进行特征选择。vectroizer=TfidfVectorizer()X_train=vectroizer.fit_transform(corpus)selector=SelectKBest(chi2,k=5000)X_train_sel=selector.fit_transform(X_train,y_train)现在，我想存储它并在其他程序中使用它。我不想在训练数据集上重新运行TfidfVectorizer()和特征选择器。我怎么做？我知道如何使用joblib使模型持久化，但我想知道这是否与使模型持久化相同。

以备 TfidfVectorizer pickle code section python python-3.x scikit-learn tf-idf joblib

python - 如何存储 TfidfVectorizer 以备将来在 scikit-learn 中使用？

我有一个TfidfVectorizer可以矢量化文章集合，然后进行特征选择。vectroizer=TfidfVectorizer()X_train=vectroizer.fit_transform(corpus)selector=SelectKBest(chi2,k=5000)X_train_sel=selector.fit_transform(X_train,y_train)现在，我想存储它并在其他程序中使用它。我不想在训练数据集上重新运行TfidfVectorizer()和特征选择器。我怎么做？我知道如何使用joblib使模型持久化，但我想知道这是否与使模型持久化相同。

以备 TfidfVectorizer pickle code section python python-3.x scikit-learn tf-idf joblib

python - Keras 中的 "metrics"是什么？

我还不清楚什么是metrics(如下面的代码所示)。他们到底在评估什么？为什么我们需要在model中定义它们？为什么我们可以在一个模型中有多个指标？更重要的是，这一切背后的机制是什么？也欢迎任何科学引用。model.compile(loss='mean_squared_error',optimizer='sgd',metrics=['mae','acc']) 最佳答案因此，为了了解什么是metrics，最好先了解什么是loss函数。神经网络主要使用梯度方法通过减少损失函数的迭代过程进行训练。loss被设计为具有两个关键属性-首先，

amp metrics code strong python machine-learning neural-network deep-learning keras

python - Keras 中的 "metrics"是什么？

我还不清楚什么是metrics(如下面的代码所示)。他们到底在评估什么？为什么我们需要在model中定义它们？为什么我们可以在一个模型中有多个指标？更重要的是，这一切背后的机制是什么？也欢迎任何科学引用。model.compile(loss='mean_squared_error',optimizer='sgd',metrics=['mae','acc']) 最佳答案因此，为了了解什么是metrics，最好先了解什么是loss函数。神经网络主要使用梯度方法通过减少损失函数的迭代过程进行训练。loss被设计为具有两个关键属性-首先，

amp metrics code strong python machine-learning neural-network deep-learning keras

python - 如何为 Keras 准备数据集？

动机通过Keras运行一组标记向量神经网络。例子查看Keras数据集示例mnist:keras.datasetsimportmnist(x_tr,y_tr),(x_te,y_te)=mnist.load_data()printx_tr.shape它似乎是一个3维的numpy数组:(60000,28,28)第一维用于样本每个样本特征的第2和第3尝试构建标记向量:X_train=numpy.array([[1]*128]*(10**4)+[[0]*128]*(10**4))X_test=numpy.array([[1]*128]*(10**2)+[[0]*128]*(10**2))Y_tr

何为 python code model section machine-learning keras

python - 如何为 Keras 准备数据集？

动机通过Keras运行一组标记向量神经网络。例子查看Keras数据集示例mnist:keras.datasetsimportmnist(x_tr,y_tr),(x_te,y_te)=mnist.load_data()printx_tr.shape它似乎是一个3维的numpy数组:(60000,28,28)第一维用于样本每个样本特征的第2和第3尝试构建标记向量:X_train=numpy.array([[1]*128]*(10**4)+[[0]*128]*(10**4))X_test=numpy.array([[1]*128]*(10**2)+[[0]*128]*(10**2))Y_tr

何为 python code model section machine-learning keras