$sklearn

python - sklearn随机森林索引feature_importances_如何做

我在sklearn中使用了RandomForestClassifier来确定数据集中的重要特征。我如何能够返回实际的特征名称(我的变量标记为x1、x2、x3等)而不是它们的相对名称(它告诉我重要的特征是“12”、“22”等)。以下是我目前用于返回重要功能的代码。important_features=[]forx,iinenumerate(rf.feature_importances_):ifi>np.average(rf.feature_importances_):important_features.append(str(x))printimportant_features此外，为了

python - 我如何使用 sklearn DictVectorizer 对列表进行矢量化

我在sklearn文档网站上找到了下一个示例:>>>measurements=[...{'city':'Dubai','temperature':33.},...{'city':'London','temperature':12.},...{'city':'SanFransisco','temperature':18.},...]>>>fromsklearn.feature_extractionimportDictVectorizer>>>vec=DictVectorizer()>>>vec.fit_transform(measurements).toarray()array([[1.

矢量化 DictVectorizer 39 temperature city python scikit-learn

python - Sklearn 中的非负矩阵分解

我正在对一个大矩阵应用非负矩阵分解(NMF)。NMF方法本质上执行以下操作:给定一个mxn矩阵A，NMF分解为A=WH，其中W是mxd，H是dxn。ProjectedGradientNMF方法在Python包Sklearn中实现。我希望算法返回W和H。但它似乎只返回H，而不是W。再次将算法应用于A.T(转置)可以得到W。但是，我想避免计算它两次，因为矩阵ix非常大。如果你能告诉我如何同时获得W和H，那就太好了!下面是我的代码:fromsklearn.decompositionimportProjectedGradientNMFimportnumpyA=numpy.random.unif

Sklearn python code section nmf_model matrix machine-learning scikit-learn

带有 SKLEARN、PANDAS 和 NUMPY 问题的 Python 部署包？

我是AWS和Python的新手，正在尝试使用AWSLambda函数实现一个简单的ML推荐系统以进行自学。我被困在sklearn、numpy和pandas的组合包装上。如果组合任何两个库意味着(Pandas和Numpy)或(Numpy和Skype)工作正常并且部署完美。因为我使用的是ML系统，所以我需要sklearn(scipy、pandas和numpy)，它无法工作并在awslambda测试中出现此错误。到目前为止我做了什么:我的部署包来自python3.6virtualenv，而不是直接来自主机。(已安装/配置python3.6、virtualenv和awscli，并且您的lambd

SKLEARN PANDAS code lambda section python machine-learning scikit-learn aws-lambda

带有 Sklearn 的 Python LSA

我目前正在尝试使用Sklearn实现LSA以在多个文档中查找同义词。这是我的代码:#importtheessentialtoolsforlsafromsklearn.feature_extraction.textimportCountVectorizerfromsklearn.feature_extraction.textimportTfidfTransformerfromsklearn.decompositionimportTruncatedSVDfromsklearn.metrics.pairwiseimportcosine_similarity#otherimportsfromo

Sklearn Python section import fit_transform scikit-learn lsa

python - 在 Sklearn 的 SVC 中，当标签大小很大时，为什么训练时间与最大迭代不严格线性？

我做了一个分析，试图查看SVC中训练时间和最大迭代之间的关系。我使用的数据是一些随机生成的数字，我根据SVC拟合的max_iter绘制了训练时间。我检查了日志，每个二进制分类器都达到了max_iter(我输出了所有控制台日志，这些日志显示了每个二进制分类器的详细警告并对其进行了计数)。但是，我假设训练时间与迭代严格线性，但实际上，在训练数据有很多标签的情况下，例如说40，那么情节不显示它是线性的。似乎随着最大迭代次数的增加，每次迭代所需的时间比以前略少。而如果我们将label_size更改为2(这意味着每个拟合仅包含1个二元分类器)，则该线是直的。是什么导致这种情况发生？这是我的源代码

训练时间不严 br code strong python machine-learning scikit-learn svc

python - SkLearn 多项式 NB : Most Informative Features

由于我的分类器在测试数据上产生了大约99%的准确率，我有点怀疑并想深入了解我的NB分类器最有用的特征，看看它正在学习什么样的特征。以下主题非常有用:Howtogetmostinformativefeaturesforscikit-learnclassifiers?至于我的特征输入，我仍在尝试，目前我正在使用CountVectorizer测试一个简单的unigram模型:vectorizer=CountVectorizer(ngram_range=(1,1),min_df=2,stop_words='english')关于上述主题，我发现了以下函数:defshow_most_inform

Informative Features 16.2420 2420 section python machine-learning scikit-learn classification text-classification

python - 为什么我们用 sklearn 导入 scikit-learn？

为什么我们安装scikit-learn包:condainstallscikit-learn然后使用名称sklearn在脚本中导入(模块来自)包，例如:fromsklearnimportx 最佳答案 scikit-learn不是python中的有效标识符，所以它不可能是那个。我想他们本可以将包命名为scikit_learn，但需要输入的内容很多，所以我想他们只是为了方便起见而决定缩短包名称。当然，如果您愿意，您可以:importsklearnasscikit_learn:-) 关于pyth

scikit-learn sklearn code section scikit python

python - 如何在 sklearn 中使用 OneHotEncoder 的输出？

我有一个带有2个分类变量、ID变量和一个目标变量(用于分类)的PandasDataframe。我设法用OneHotEncoder转换分类值。这导致稀疏矩阵。ohe=OneHotEncoder()#FirstIremappedthestringvaluesinthecategoricalvariablestointegersasOneHotEncoderneedsintegersasinput...remappingcode...ohe.fit(df[['col_a','col_b']])ohe.transform(df[['col_a','col_b']])但我不知道如何在Decisi

OneHotEncoder 何在 39 code section python pandas scikit-learn classification one-hot-encoding

python - ImportError:无法从 sklearn.utils.validation 导入名称 check_array

当我从模块sklearn.utils.validation导入函数check_array时，出现导入错误(ImportError:cannotimportnamecheck_array).选项卡完成得到了check_arrays，但我想知道validation.py(sourcecodeonGithub)中只存在一个名为check_array的函数。此外，在scikit-learn/sklearn/cluster/spectral.py中实现的谱聚类算法还使用了from..utils.validationimportcheck_array，而不是check_arrays。我对此很困惑，

ImportError check_array code section python scikit-learn

5 6 789 10 11