草庐IT

SciKit-Learn

全部标签

python - sklearn.svm.svc 的函数 predict_proba() 如何在内部工作?

我正在使用sklearn.svm.svc来自scikit-learn进行二分类。我正在使用它的predict_proba()函数来获得概率估计。谁能告诉我predict_proba()如何在内部计算概率? 最佳答案 Scikit-learn在内部使用LibSVM,而这又使用Plattscaling,详见thisnotebytheLibSVMauthors,校准SVM以产生除类预测之外的概率。Plattscaling需要首先像往常一样训练SVM,然后优化参数向量A和B使得P(y|X)=1/(1+exp(A*f(X)+B))其中f(X)

python - sklearn.svm.svc 的函数 predict_proba() 如何在内部工作?

我正在使用sklearn.svm.svc来自scikit-learn进行二分类。我正在使用它的predict_proba()函数来获得概率估计。谁能告诉我predict_proba()如何在内部计算概率? 最佳答案 Scikit-learn在内部使用LibSVM,而这又使用Plattscaling,详见thisnotebytheLibSVMauthors,校准SVM以产生除类预测之外的概率。Plattscaling需要首先像往常一样训练SVM,然后优化参数向量A和B使得P(y|X)=1/(1+exp(A*f(X)+B))其中f(X)

python - 逻辑回归 : Unknown label type: 'continuous' using sklearn in python

我有以下代码来测试sklearnpython库的一些最流行的ML算法:importnumpyasnpfromsklearnimportmetrics,svmfromsklearn.linear_modelimportLinearRegressionfromsklearn.linear_modelimportLogisticRegressionfromsklearn.treeimportDecisionTreeClassifierfromsklearn.neighborsimportKNeighborsClassifierfromsklearn.discriminant_analysis

python - 逻辑回归 : Unknown label type: 'continuous' using sklearn in python

我有以下代码来测试sklearnpython库的一些最流行的ML算法:importnumpyasnpfromsklearnimportmetrics,svmfromsklearn.linear_modelimportLinearRegressionfromsklearn.linear_modelimportLogisticRegressionfromsklearn.treeimportDecisionTreeClassifierfromsklearn.neighborsimportKNeighborsClassifierfromsklearn.discriminant_analysis

python - 标签编码器 : TypeError: '>' not supported between instances of 'float' and 'str'

即使处理缺失值,我也面临多个变量的此错误。例如:le=preprocessing.LabelEncoder()categorical=list(df.select_dtypes(include=['object']).columns.values)forcatincategorical:print(cat)df[cat].fillna('UNK',inplace=True)df[cat]=le.fit_transform(df[cat])#print(le.classes_)#print(le.transform(le.classes_))-----------------------

python - 标签编码器 : TypeError: '>' not supported between instances of 'float' and 'str'

即使处理缺失值,我也面临多个变量的此错误。例如:le=preprocessing.LabelEncoder()categorical=list(df.select_dtypes(include=['object']).columns.values)forcatincategorical:print(cat)df[cat].fillna('UNK',inplace=True)df[cat]=le.fit_transform(df[cat])#print(le.classes_)#print(le.transform(le.classes_))-----------------------

python - sklearn 绘制带有标签的混淆矩阵

我想绘制一个混淆矩阵来可视化分类器的性能,但它只显示标签的数量,而不是标签本身:fromsklearn.metricsimportconfusion_matriximportpylabasply_test=['business','business','business','business','business','business','business','business','business','business','business','business','business','business','business','business','business','busi

python - sklearn 绘制带有标签的混淆矩阵

我想绘制一个混淆矩阵来可视化分类器的性能,但它只显示标签的数量,而不是标签本身:fromsklearn.metricsimportconfusion_matriximportpylabasply_test=['business','business','business','business','business','business','business','business','business','business','business','business','business','business','business','business','business','busi

python - scikit 的 GridSearch 和 Python 通常不会释放内存

我做了一些奇怪的观察,我的GridSearch在几个小时后一直失败,我一开始不知道为什么。随着时间的推移,我监控了内存使用情况,发现它从几GB(~6Gb)开始并不断增加,直到达到最大值时节点崩溃。硬件可以占用128Gb。我正在尝试使用随机森林对大量文本文档进行分类。为简单起见——为了弄清楚发生了什么——我回到了朴素贝叶斯。我使用的版本是Python3.4.2scikit-learn0.15.2我在GitHub上的scikit-issuelist上找到了一些关于此主题的相关讨论:https://github.com/scikit-learn/scikit-learn/issues/565

python - scikit 的 GridSearch 和 Python 通常不会释放内存

我做了一些奇怪的观察,我的GridSearch在几个小时后一直失败,我一开始不知道为什么。随着时间的推移,我监控了内存使用情况,发现它从几GB(~6Gb)开始并不断增加,直到达到最大值时节点崩溃。硬件可以占用128Gb。我正在尝试使用随机森林对大量文本文档进行分类。为简单起见——为了弄清楚发生了什么——我回到了朴素贝叶斯。我使用的版本是Python3.4.2scikit-learn0.15.2我在GitHub上的scikit-issuelist上找到了一些关于此主题的相关讨论:https://github.com/scikit-learn/scikit-learn/issues/565