SciKit-Learn_草庐IT

python - Sklearn SGDClassifier 部分拟合

我正在尝试使用SGD对大型数据集进行分类。由于数据太大而无法放入内存，我想使用partial_fit方法来训练分类器。我选择了适合内存的数据集样本(100,000行)来测试fit与partial_fit:fromsklearn.linear_modelimportSGDClassifierdefbatches(l,n):foriinxrange(0,len(l),n):yieldl[i:i+n]clf1=SGDClassifier(shuffle=True,loss='log')clf1.fit(X,Y)clf2=SGDClassifier(shuffle=True,loss='log

python - Sklearn SGDClassifier 部分拟合

我正在尝试使用SGD对大型数据集进行分类。由于数据太大而无法放入内存，我想使用partial_fit方法来训练分类器。我选择了适合内存的数据集样本(100,000行)来测试fit与partial_fit:fromsklearn.linear_modelimportSGDClassifierdefbatches(l,n):foriinxrange(0,len(l),n):yieldl[i:i+n]clf1=SGDClassifier(shuffle=True,loss='log')clf1.fit(X,Y)clf2=SGDClassifier(shuffle=True,loss='log

SGDClassifier Sklearn batch section python machine-learning scikit-learn gradient-descent

python - GridSearch 用于 OneVsRestClassifier 中的估计器

我想在SVC模型中执行GridSearchCV，但它使用一对多策略。对于后一部分，我可以这样做:model_to_set=OneVsRestClassifier(SVC(kernel="poly"))我的问题在于参数。假设我想尝试以下值:parameters={"C":[1,2,4,8],"kernel":["poly","rbf"],"degree":[1,2,3,4]}为了执行GridSearchCV，我应该这样做:cv_generator=StratifiedKFold(y,k=10)model_tunning=GridSearchCV(model_to_set,param_gr

OneVsRestClassifier GridSearch 34 code python machine-learning scikit-learn

python - GridSearch 用于 OneVsRestClassifier 中的估计器

我想在SVC模型中执行GridSearchCV，但它使用一对多策略。对于后一部分，我可以这样做:model_to_set=OneVsRestClassifier(SVC(kernel="poly"))我的问题在于参数。假设我想尝试以下值:parameters={"C":[1,2,4,8],"kernel":["poly","rbf"],"degree":[1,2,3,4]}为了执行GridSearchCV，我应该这样做:cv_generator=StratifiedKFold(y,k=10)model_tunning=GridSearchCV(model_to_set,param_gr

OneVsRestClassifier GridSearch 34 code python machine-learning scikit-learn

python - RidgeClassifierCV 的评分函数

我正在尝试在scikit-learn中为RidgeClassifierCV实现自定义评分功能。这涉及在初始化RidgeClassifierCV对象时将自定义评分函数作为score_func传递。我希望score_func将分类值作为y_true和y_pred的输入。然而，浮点值作为y_true和y_pred传入。y向量的大小等于类数乘以训练样例数，而不是简单地拥有一个长度等于训练样例数的y向量。我能否以某种方式强制将分类预测传递到自定义评分函数中，还是我必须处理原始权重？如果我必须直接处理原始权重，输出向量切片中最大值的索引是否等同于预测的类？最佳答案

RidgeClassifierCV python code section 自定 scikit-learn

python - RidgeClassifierCV 的评分函数

我正在尝试在scikit-learn中为RidgeClassifierCV实现自定义评分功能。这涉及在初始化RidgeClassifierCV对象时将自定义评分函数作为score_func传递。我希望score_func将分类值作为y_true和y_pred的输入。然而，浮点值作为y_true和y_pred传入。y向量的大小等于类数乘以训练样例数，而不是简单地拥有一个长度等于训练样例数的y向量。我能否以某种方式强制将分类预测传递到自定义评分函数中，还是我必须处理原始权重？如果我必须直接处理原始权重，输出向量切片中最大值的索引是否等同于预测的类？最佳答案

RidgeClassifierCV python code section 自定 scikit-learn

python - 在 Jupyter Notebook 中绘制交互式决策树

有没有办法在JupyterNotebook中绘制决策树，以便我可以交互式地探索它的节点？我正在考虑这样的事情.这是来自KNIME的示例。我找到了https://planspace.org/20151129-see_sklearn_trees_with_d3/和https://bl.ocks.org/ajschumacher/65eda1df2b0dd2cf616f而且我知道你可以在Jupyter中运行d3，但我还没有找到任何可以这样做的包。最佳答案在JupyterNotebook中使用d3js更新了带有可折叠图形的答案笔记本中第

Notebook Jupyter 34 strong noreferrer python machine-learning scikit-learn decision-tree

python - 在 Jupyter Notebook 中绘制交互式决策树

有没有办法在JupyterNotebook中绘制决策树，以便我可以交互式地探索它的节点？我正在考虑这样的事情.这是来自KNIME的示例。我找到了https://planspace.org/20151129-see_sklearn_trees_with_d3/和https://bl.ocks.org/ajschumacher/65eda1df2b0dd2cf616f而且我知道你可以在Jupyter中运行d3，但我还没有找到任何可以这样做的包。最佳答案在JupyterNotebook中使用d3js更新了带有可折叠图形的答案笔记本中第

Notebook Jupyter 34 strong noreferrer python machine-learning scikit-learn decision-tree

python - get_dummies (Pandas) 和 OneHotEncoder (Scikit-learn) 之间的优缺点是什么？

我正在学习将分类变量转换为机器学习分类器的数值的不同方法。我遇到了pd.get_dummies方法和sklearn.preprocessing.OneHotEncoder()，我想看看它们在性能和使用方面有何不同。我在https://xgdgsc.wordpress.com/2015/03/20/note-on-using-onehotencoder-in-scikit-learn-to-work-on-categorical-features/上找到了关于如何使用OneHotEncoder()的教程因为sklearn文档对此功能没有太大帮助。我感觉我做得不对……但是能否解释一下使用p

优缺点 OneHotEncoder code strong python pandas machine-learning scikit-learn dummy-variable

python - get_dummies (Pandas) 和 OneHotEncoder (Scikit-learn) 之间的优缺点是什么？

我正在学习将分类变量转换为机器学习分类器的数值的不同方法。我遇到了pd.get_dummies方法和sklearn.preprocessing.OneHotEncoder()，我想看看它们在性能和使用方面有何不同。我在https://xgdgsc.wordpress.com/2015/03/20/note-on-using-onehotencoder-in-scikit-learn-to-work-on-categorical-features/上找到了关于如何使用OneHotEncoder()的教程因为sklearn文档对此功能没有太大帮助。我感觉我做得不对……但是能否解释一下使用p

优缺点 OneHotEncoder code strong python pandas machine-learning scikit-learn dummy-variable