草庐IT

$sklearn

全部标签

python - sklearn 和大型数据集

我有一个22GB的数据集。我想在我的笔记本电脑上处理它。当然,我无法将其加载到内存中。我经常使用sklearn,但数据集要小得多。在这种情况下,经典方法应该是这样的。只读部分数据->部分训练您的估计器->删除数据->读取其他部分数据->继续训练您的估计器。我已经看到一些sklearn算法具有部分拟合方法,应该允许我们使用数据的各种子样本训练估计器。现在我想知道为什么在sklearn中这样做很简单?我正在寻找类似的东西r=read_part_of_data('data.csv')m=sk.my_model`foriinrange(n):x=r.read_next_chunk(20line

python - sklearn 和大型数据集

我有一个22GB的数据集。我想在我的笔记本电脑上处理它。当然,我无法将其加载到内存中。我经常使用sklearn,但数据集要小得多。在这种情况下,经典方法应该是这样的。只读部分数据->部分训练您的估计器->删除数据->读取其他部分数据->继续训练您的估计器。我已经看到一些sklearn算法具有部分拟合方法,应该允许我们使用数据的各种子样本训练估计器。现在我想知道为什么在sklearn中这样做很简单?我正在寻找类似的东西r=read_part_of_data('data.csv')m=sk.my_model`foriinrange(n):x=r.read_next_chunk(20line

python - Sklearn SGDClassifier 部分拟合

我正在尝试使用SGD对大型数据集进行分类。由于数据太大而无法放入内存,我想使用partial_fit方法来训练分类器。我选择了适合内存的数据集样本(100,000行)来测试fit与partial_fit:fromsklearn.linear_modelimportSGDClassifierdefbatches(l,n):foriinxrange(0,len(l),n):yieldl[i:i+n]clf1=SGDClassifier(shuffle=True,loss='log')clf1.fit(X,Y)clf2=SGDClassifier(shuffle=True,loss='log

python - Sklearn SGDClassifier 部分拟合

我正在尝试使用SGD对大型数据集进行分类。由于数据太大而无法放入内存,我想使用partial_fit方法来训练分类器。我选择了适合内存的数据集样本(100,000行)来测试fit与partial_fit:fromsklearn.linear_modelimportSGDClassifierdefbatches(l,n):foriinxrange(0,len(l),n):yieldl[i:i+n]clf1=SGDClassifier(shuffle=True,loss='log')clf1.fit(X,Y)clf2=SGDClassifier(shuffle=True,loss='log

python - sklearn.svm.svc 的函数 predict_proba() 如何在内部工作?

我正在使用sklearn.svm.svc来自scikit-learn进行二分类。我正在使用它的predict_proba()函数来获得概率估计。谁能告诉我predict_proba()如何在内部计算概率? 最佳答案 Scikit-learn在内部使用LibSVM,而这又使用Plattscaling,详见thisnotebytheLibSVMauthors,校准SVM以产生除类预测之外的概率。Plattscaling需要首先像往常一样训练SVM,然后优化参数向量A和B使得P(y|X)=1/(1+exp(A*f(X)+B))其中f(X)

python - sklearn.svm.svc 的函数 predict_proba() 如何在内部工作?

我正在使用sklearn.svm.svc来自scikit-learn进行二分类。我正在使用它的predict_proba()函数来获得概率估计。谁能告诉我predict_proba()如何在内部计算概率? 最佳答案 Scikit-learn在内部使用LibSVM,而这又使用Plattscaling,详见thisnotebytheLibSVMauthors,校准SVM以产生除类预测之外的概率。Plattscaling需要首先像往常一样训练SVM,然后优化参数向量A和B使得P(y|X)=1/(1+exp(A*f(X)+B))其中f(X)

python - 逻辑回归 : Unknown label type: 'continuous' using sklearn in python

我有以下代码来测试sklearnpython库的一些最流行的ML算法:importnumpyasnpfromsklearnimportmetrics,svmfromsklearn.linear_modelimportLinearRegressionfromsklearn.linear_modelimportLogisticRegressionfromsklearn.treeimportDecisionTreeClassifierfromsklearn.neighborsimportKNeighborsClassifierfromsklearn.discriminant_analysis

python - 逻辑回归 : Unknown label type: 'continuous' using sklearn in python

我有以下代码来测试sklearnpython库的一些最流行的ML算法:importnumpyasnpfromsklearnimportmetrics,svmfromsklearn.linear_modelimportLinearRegressionfromsklearn.linear_modelimportLogisticRegressionfromsklearn.treeimportDecisionTreeClassifierfromsklearn.neighborsimportKNeighborsClassifierfromsklearn.discriminant_analysis

python - sklearn 绘制带有标签的混淆矩阵

我想绘制一个混淆矩阵来可视化分类器的性能,但它只显示标签的数量,而不是标签本身:fromsklearn.metricsimportconfusion_matriximportpylabasply_test=['business','business','business','business','business','business','business','business','business','business','business','business','business','business','business','business','business','busi

python - sklearn 绘制带有标签的混淆矩阵

我想绘制一个混淆矩阵来可视化分类器的性能,但它只显示标签的数量,而不是标签本身:fromsklearn.metricsimportconfusion_matriximportpylabasply_test=['business','business','business','business','business','business','business','business','business','business','business','business','business','business','business','business','business','busi