SciKit-Learn_草庐IT

python - 在决策树中显示更多属性

我目前正在使用以下代码查看决策树。有没有一种方法可以将一些计算字段也导出为输出？例如，是否可以在每个节点显示输入属性的总和，即树叶中“X”数据数组的特征1的总和。fromsklearnimportdatasetsiris=datasets.load_iris()X=iris.data[:]y=iris.target#%%fromsklearn.treeimportDecisionTreeClassifieralg=DecisionTreeClassifier(max_depth=5,min_samples_leaf=2,max_leaf_nodes=10)alg.fit(X,y)#%%

python 在 code node feature scikit-learn decision-tree pygraphviz

python - 在 scikit 中绘制 ROC 曲线仅产生 3 分

TLDR:scikit的roc_curve函数仅为特定数据集返回3个点。为什么会这样，我们如何控制返回多少积分？我正在尝试绘制ROC曲线，但始终得到“ROC三角形”。lr=LogisticRegression(multi_class='multinomial',solver='newton-cg')y=data['target'].valuesX=data[['feature']].valuesmodel=lr.fit(X,y)#getprobabilitiesforclfprobas_=model.predict_log_proba(X)只是为了确保长度没问题:printlen(y)

python scikit section code strong validation machine-learning scikit-learn roc

python - scikit-learn 内核 PCA 解释方差

我一直在使用scikit-learn中的普通PCA，并毫无问题地获得每个主成分的方差比。pca=sklearn.decomposition.PCA(n_components=3)pca_transform=pca.fit_transform(feature_vec)var_values=pca.explained_variance_ratio_我想使用内核PCA探索不同的内核，还想要解释的方差比，但我现在看到它没有这个属性。有谁知道如何获得这些值？kpca=sklearn.decomposition.KernelPCA(kernel=kernel,n_components=3)kpca

scikit-learn python explained variance explained_variance_ratio

python - 在标签不在训练集中的测试数据上使用 MultilabelBinarizer

给定这个简单的多标签分类示例(取自这个问题，usescikit-learntoclassifyintomultiplecategories)importnumpyasnpfromsklearn.pipelineimportPipelinefromsklearn.feature_extraction.textimportCountVectorizerfromsklearn.svmimportLinearSVCfromsklearn.feature_extraction.textimportTfidfTransformerfromsklearn.multiclassimportOneVsR

MultilabelBinarizer 训练 34 london york python machine-learning scikit-learn

使用 Scikit-learn 进行拟合时出现 Python MemoryError

我在具有24GB内存的Windows864位系统上运行Python2.7(64位)。在对通常的Sklearn.linear_models.Ridge进行拟合时，代码运行良好。问题:但是，当使用Sklearn.linear_models.RidgeCV(alphas=alphas)进行拟合时，我遇到了显示的MemoryError错误在执行拟合过程的rr.fit(X_train,y_train)行下方。我怎样才能避免这个错误？代码片段deffit(X_train,y_train):alphas=[1e-3,1e-2,1e-1,1e0,1e1]rr=RidgeCV(alphas=alphas

时出 Scikit-learn code 稀疏 self python python-2.7 numpy scipy

python - 在 scikit learn 中组合随机森林模型

我有两个RandomForestClassifier模型，我想将它们组合成一个元模型。他们都使用相似但不同的数据进行训练。我该怎么做？rf1#thisismyfirstfittedRandomForestClassifierobject,with250treesrf2#thisismysecondfittedRandomForestClassifierobject,alsowith250trees我想创建big_rf并将所有树组合成一个500棵树模型最佳答案我相信这可以通过修改RandomForestClassifier对象的e

python scikit estimators code RandomForestClassifier python-2.7 scikit-learn classification random-forest

python - 在 RandomForestRegressor 中得到连续不支持的错误

我只是想做一个简单的RandomForestRegressor示例。但是在测试准确性时我得到了这个错误/Users/noppanit/anaconda/lib/python2.7/site-packages/sklearn/metrics/classification.pycinaccuracy_score(y_true,y_pred,normalize,sample_weight)177178#Computeaccuracyforeachpossiblerepresentation-->179y_type,y_true,y_pred=_check_targets(y_true,y_p

RandomForestRegressor 不支 train sklearn code python pandas dataframe scikit-learn random-forest

python - 在 Scikit 特征选择后保留特征名称

在对一组数据运行Scikit-Learn的方差阈值后，它删除了几个特征。我觉得我在做一些简单而愚蠢的事情，但我想保留其余功能的名称。以下代码:defVarianceThreshold_selector(data):selector=VarianceThreshold(.5)selector.fit(data)selector=(pd.DataFrame(selector.transform(data)))returnselectorx=VarianceThreshold_selector(data)print(x)更改以下数据(这只是行的一小部分):SurvivedPclassSexA

python Scikit selector code section pandas scikit-learn output feature-selection

python - 保存部分 sklearn 管道

模型中的一些特征可能需要一些时间才能生成，因此要快速试验多个特征和参数，最好将它们保存到磁盘以备后用。作为一个具体示例(取自here)，假设我有以下管道:pipeline=Pipeline([('extract_essays',EssayExractor()),('features',FeatureUnion([('ngram_tf_idf',Pipeline([('counts',CountVectorizer()),('tf_idf',TfidfTransformer())])),('essay_length',LengthTransformer()),('misspellings

sklearn python section code 39 scikit-learn

python - 部分拟合和热启动有什么区别？

上下文:我正在使用scikit库中的PassiveAggressor，不知道是使用热启动还是部分拟合。迄今为止的努力:引用了这个话题讨论:https://github.com/scikit-learn/scikit-learn/issues/1585浏览了_fit和_partial_fit的scikit代码。我的观察:_fit依次调用_partial_fit。设置warm_start后，_fit调用_partial_fitself.coef_当调用_partial_fit时没有coef_init参数和self。coef_已设置，它继续使用self.coef_问题:我觉得两者最终都提供相

python 部分 code strong fit python-2.7 machine-learning scikit-learn