SciKit-Learn_草庐IT

python - 如何查找与 KMeans 在同一集群中的文档

我将各种文章与Scikit-learn框架放在一起。以下是每个集群中排名前15的单词:Cluster0:whalesislandsseaworldhurricanewhaleodilestormtropicalkphmphpacificmexicoorcacoastcabosCluster1:ebolaoutbreakvaccineafricausaidfoundationviruscdcgatesdiseasehealthvaccinesexperimentalcentersobamaCluster2:jonesbobosanfordchildrencarolinamississip

python - 如何查找与 KMeans 在同一集群中的文档

我将各种文章与Scikit-learn框架放在一起。以下是每个集群中排名前15的单词:Cluster0:whalesislandsseaworldhurricanewhaleodilestormtropicalkphmphpacificmexicoorcacoastcabosCluster1:ebolaoutbreakvaccineafricausaidfoundationviruscdcgatesdiseasehealthvaccinesexperimentalcentersobamaCluster2:jonesbobosanfordchildrencarolinamississip

python KMeans code cluster X_cluster artificial-intelligence scikit-learn k-means

python - 如何将 sklearn 决策树规则提取到 pandas bool 条件？

帖子太多了likethis关于如何提取sklearn决策树规则，但我找不到任何关于使用pandas的信息。取thisdataandmodel例如，如下#CreateDecisionTreeclassiferobjectclf=DecisionTreeClassifier(criterion="entropy",max_depth=3)#TrainDecisionTreeClassiferclf=clf.fit(X_train,y_train)结果:预期:这个例子有8条规则。从左到右，注意dataframe是dfr1=(df['glucose']127.5)&(df['bmi']>28.

sklearn python 39 code df pandas machine-learning scikit-learn decision-tree

python - 如何将 sklearn 决策树规则提取到 pandas bool 条件？

帖子太多了likethis关于如何提取sklearn决策树规则，但我找不到任何关于使用pandas的信息。取thisdataandmodel例如，如下#CreateDecisionTreeclassiferobjectclf=DecisionTreeClassifier(criterion="entropy",max_depth=3)#TrainDecisionTreeClassiferclf=clf.fit(X_train,y_train)结果:预期:这个例子有8条规则。从左到右，注意dataframe是dfr1=(df['glucose']127.5)&(df['bmi']>28.

sklearn python 39 code df pandas machine-learning scikit-learn decision-tree

python - sklearn 的评分函数的参数是什么？

我最近看了一堆sklearn教程，它们都很相似，因为它们通过以下方式对拟合优度进行评分:clf.fit(X_train,y_train)clf.score(X_test,y_test)它会吐出:0.92345...或其他分数。我很好奇clf.score函数的参数或它如何对模型进行评分。我浏览了整个互联网，但似乎找不到它的文档。有人知道吗？最佳答案它采用特征矩阵X_test和预期目标值y_test。X_test的预测与y_test进行比较，返回准确度(对于分类器)或R²分数(对于回归估计器)。score方法的文档字符串中非常明确地

sklearn python code section test scikit-learn

python - sklearn 的评分函数的参数是什么？

我最近看了一堆sklearn教程，它们都很相似，因为它们通过以下方式对拟合优度进行评分:clf.fit(X_train,y_train)clf.score(X_test,y_test)它会吐出:0.92345...或其他分数。我很好奇clf.score函数的参数或它如何对模型进行评分。我浏览了整个互联网，但似乎找不到它的文档。有人知道吗？最佳答案它采用特征矩阵X_test和预期目标值y_test。X_test的预测与y_test进行比较，返回准确度(对于分类器)或R²分数(对于回归估计器)。score方法的文档字符串中非常明确地

sklearn python code section test scikit-learn

python - 如何存储 TfidfVectorizer 以备将来在 scikit-learn 中使用？

我有一个TfidfVectorizer可以矢量化文章集合，然后进行特征选择。vectroizer=TfidfVectorizer()X_train=vectroizer.fit_transform(corpus)selector=SelectKBest(chi2,k=5000)X_train_sel=selector.fit_transform(X_train,y_train)现在，我想存储它并在其他程序中使用它。我不想在训练数据集上重新运行TfidfVectorizer()和特征选择器。我怎么做？我知道如何使用joblib使模型持久化，但我想知道这是否与使模型持久化相同。

以备 TfidfVectorizer pickle code section python python-3.x scikit-learn tf-idf joblib

python - 如何存储 TfidfVectorizer 以备将来在 scikit-learn 中使用？

我有一个TfidfVectorizer可以矢量化文章集合，然后进行特征选择。vectroizer=TfidfVectorizer()X_train=vectroizer.fit_transform(corpus)selector=SelectKBest(chi2,k=5000)X_train_sel=selector.fit_transform(X_train,y_train)现在，我想存储它并在其他程序中使用它。我不想在训练数据集上重新运行TfidfVectorizer()和特征选择器。我怎么做？我知道如何使用joblib使模型持久化，但我想知道这是否与使模型持久化相同。

以备 TfidfVectorizer pickle code section python python-3.x scikit-learn tf-idf joblib

python - 多维目标回归

我正在使用scikit-learn进行回归，我的问题如下。我需要对几个参数(向量)进行回归。这适用于一些回归方法，例如ensemble.ExtraTreesRegressor和ensemble.RandomForestRegressor。事实上，对于上述两种回归方法，可以给出一个向量的向量作为目标来拟合模型(fit(X,y)方法)。然而，当我尝试使用ensemble.GradientBoostingRegressor、ensemble.AdaBoostRegressor和linear_model.SGDRegressor时，分类器无法拟合模型，因为它期望一维值作为目标(fit(X,y)

多维 python code linear_model ensemble scikit-learn

python - 多维目标回归

我正在使用scikit-learn进行回归，我的问题如下。我需要对几个参数(向量)进行回归。这适用于一些回归方法，例如ensemble.ExtraTreesRegressor和ensemble.RandomForestRegressor。事实上，对于上述两种回归方法，可以给出一个向量的向量作为目标来拟合模型(fit(X,y)方法)。然而，当我尝试使用ensemble.GradientBoostingRegressor、ensemble.AdaBoostRegressor和linear_model.SGDRegressor时，分类器无法拟合模型，因为它期望一维值作为目标(fit(X,y)

多维 python code linear_model ensemble scikit-learn