草庐IT

Scikit-Learn-Keras

全部标签

python - 高斯混合模型 : Difference between Spark MLlib and scikit-learn

我正在尝试对数据集样本使用高斯混合模型。我同时使用了MLlib(与pyspark)和scikit-learn,得到了截然不同的结果,scikit-learn一个看起来更逼真。frompyspark.mllib.clusteringimportGaussianMixtureasSparkGaussianMixturefromsklearn.mixtureimportGaussianMixturefrompyspark.mllib.linalgimportVectorsScikit-learn:local=pd.DataFrame([x.asDict()forxindf.sample(0.

python - Keras LSTM 自动编码器时间序列重建

我正在尝试使用LSTM自动编码器(Keras)重建时间序列数据。现在我想在少量样本上训练自动编码器(5个样本,每个样本有500个时间步长并且有1个维度)。我想确保该模型可以重建这5个样本,然后我将使用所有数据(6000个样本)。window_size=500features=1data=data.reshape(5,window_size,features)model=Sequential()model.add(LSTM(256,input_shape=(window_size,features),return_sequences=True))model.add(LSTM(128,in

python - 你能修复 scikit 学习中分类器的假阴性率吗

我正在使用RandomForestclassifer在scikit中学习两个类的不平衡数据集。与误报相比,我更担心假阴性。是否可以固定假阴性率(比如1%)并要求scikit以某种方式优化假阳性率?如果这个分类器不支持,是否有另一个分类器支持? 最佳答案 我相信sklearn中类不平衡的问题可以通过使用class_weight参数来部分解决。这个参数要么是一个字典,其中每个类都被分配了一个统一的权重,要么是一个字符串,告诉sklearn如何构建这个字典。例如,将此参数设置为“自动”,将按其频率的倒数对每个类别进行加权。通过为较少出现的

python - 你能修复 scikit 学习中分类器的假阴性率吗

我正在使用RandomForestclassifer在scikit中学习两个类的不平衡数据集。与误报相比,我更担心假阴性。是否可以固定假阴性率(比如1%)并要求scikit以某种方式优化假阳性率?如果这个分类器不支持,是否有另一个分类器支持? 最佳答案 我相信sklearn中类不平衡的问题可以通过使用class_weight参数来部分解决。这个参数要么是一个字典,其中每个类都被分配了一个统一的权重,要么是一个字符串,告诉sklearn如何构建这个字典。例如,将此参数设置为“自动”,将按其频率的倒数对每个类别进行加权。通过为较少出现的

python - 如何存储 TfidfVectorizer 以备将来在 scikit-learn 中使用?

我有一个TfidfVectorizer可以矢量化文章集合,然后进行特征选择。vectroizer=TfidfVectorizer()X_train=vectroizer.fit_transform(corpus)selector=SelectKBest(chi2,k=5000)X_train_sel=selector.fit_transform(X_train,y_train)现在,我想存储它并在其他程序中使用它。我不想在训练数据集上重新运行TfidfVectorizer()和特征选择器。我怎么做?我知道如何使用joblib使模型持久化,但我想知道这是否与使模型持久化相同。

python - 如何存储 TfidfVectorizer 以备将来在 scikit-learn 中使用?

我有一个TfidfVectorizer可以矢量化文章集合,然后进行特征选择。vectroizer=TfidfVectorizer()X_train=vectroizer.fit_transform(corpus)selector=SelectKBest(chi2,k=5000)X_train_sel=selector.fit_transform(X_train,y_train)现在,我想存储它并在其他程序中使用它。我不想在训练数据集上重新运行TfidfVectorizer()和特征选择器。我怎么做?我知道如何使用joblib使模型持久化,但我想知道这是否与使模型持久化相同。

python - Keras 中的 "metrics"是什么?

我还不清楚什么是metrics(如下面的代码所示)。他们到底在评估什么?为什么我们需要在model中定义它们?为什么我们可以在一个模型中有多个指标?更重要的是,这一切背后的机制是什么?也欢迎任何科学引用。model.compile(loss='mean_squared_error',optimizer='sgd',metrics=['mae','acc']) 最佳答案 因此,为了了解什么是metrics,最好先了解什么是loss函数。神经网络主要使用梯度方法通过减少损失函数的迭代过程进行训练。loss被设计为具有两个关键属性-首先,

python - Keras 中的 "metrics"是什么?

我还不清楚什么是metrics(如下面的代码所示)。他们到底在评估什么?为什么我们需要在model中定义它们?为什么我们可以在一个模型中有多个指标?更重要的是,这一切背后的机制是什么?也欢迎任何科学引用。model.compile(loss='mean_squared_error',optimizer='sgd',metrics=['mae','acc']) 最佳答案 因此,为了了解什么是metrics,最好先了解什么是loss函数。神经网络主要使用梯度方法通过减少损失函数的迭代过程进行训练。loss被设计为具有两个关键属性-首先,

python - 如何为 Keras 准备数据集?

动机通过Keras运行一组标记向量神经网络。例子查看Keras数据集示例mnist:keras.datasetsimportmnist(x_tr,y_tr),(x_te,y_te)=mnist.load_data()printx_tr.shape它似乎是一个3维的numpy数组:(60000,28,28)第一维用于样本每个样本特征的第2和第3尝试构建标记向量:X_train=numpy.array([[1]*128]*(10**4)+[[0]*128]*(10**4))X_test=numpy.array([[1]*128]*(10**2)+[[0]*128]*(10**2))Y_tr

python - 如何为 Keras 准备数据集?

动机通过Keras运行一组标记向量神经网络。例子查看Keras数据集示例mnist:keras.datasetsimportmnist(x_tr,y_tr),(x_te,y_te)=mnist.load_data()printx_tr.shape它似乎是一个3维的numpy数组:(60000,28,28)第一维用于样本每个样本特征的第2和第3尝试构建标记向量:X_train=numpy.array([[1]*128]*(10**4)+[[0]*128]*(10**4))X_test=numpy.array([[1]*128]*(10**2)+[[0]*128]*(10**2))Y_tr