草庐IT

scikit-bio

全部标签

memory - Scikit 和 Pandas : Fitting Large Data

如何使用scikit-learn在大型csv数据(~75MB)上训练模型而不会遇到内存问题?我使用IPythonnotebook作为编程环境,使用pandas+sklearn包来分析来自kaggle数字识别器教程的数据。数据可在webpage上获得,链接到mycode,这里是errormessage:KNeighborsClassifier用于预测。问题:"MemoryError"occurswhenloadinglargedatasetusingread_csvfunction.Tobypassthisproblemtemporarily,Ihavetorestartthekerne

Node.js https pem 错误 : routines:PEM_read_bio:no start line

我现在正在使用node.js处理登录表单,我尝试使用创建pemkey和csropensslreq-newkeyrsa:2048-new-nodes-keyoutkey.pem-outcsr.pem但是我在运行nodeserver.js时遇到错误这是我的server.jsvarhttp=require('http'),express=require('express'),UserServer=require('./lib/user-server');varhttps=require('https');varfs=require('fs');varoptions={key:fs.readF

python - 如何像 R 一样在 scikit-learn 中获得回归摘要?

作为R用户,我还想快速了解scikit。创建线性回归模型很好,但似乎无法找到一种合理的方法来获得回归输出的标准摘要。代码示例:#LinearRegressionimportnumpyasnpfromsklearnimportdatasetsfromsklearn.linear_modelimportLinearRegression#Loadthediabetesdatasetsdataset=datasets.load_diabetes()#Fitalinearregressionmodeltothedatamodel=LinearRegression()model.fit(datas

python - Scikit-learn - 使用 RFECV 和 GridSearch 减少特征。系数存储在哪里?

我正在使用Scikit-learnRFECV通过交叉验证为逻辑回归选择最重要的特征。假设X是特征的[n,x]数据框,y表示响应变量:fromsklearn.pipelineimportmake_pipelinefromsklearn.grid_searchimportGridSearchCVfromsklearn.cross_validationimportStratifiedKFoldfromsklearnimportpreprocessingfromsklearn.feature_selectionimportRFECVimportsklearnimportsklearn.line

python - Scikit学习中的线性回归和梯度下降?

在coursera机器学习类(class)中https://share.coursera.org/wiki/index.php/ML:Linear_Regression_with_Multiple_Variables#Gradient_Descent_for_Multiple_Variables,它说梯度下降应该收敛。我正在使用来自scikitlearn的线性回归。它不提供梯度下降信息。我在stackoverflow上看到了很多关于使用梯度下降实现线性回归的问题。我们如何在现实世界中使用来自scikit-learn的线性回归?或者为什么scikit-learn在线性回归输出中不提供梯度

python - 使用 Scikit-learn (sklearn) 估算整个 DataFrame(所有列)而不迭代列

我想估算pandasDataFrame上的所有列...我能想到的唯一方法是逐列如下所示...有没有一种操作可以让我在不遍历列的情况下估算整个DataFrame?#!/usr/bin/pythonfromsklearn.preprocessingimportImputerimportnumpyasnpimportpandasaspd#Imputerfill_NaN=Imputer(missing_values=np.nan,strategy='mean',axis=1)#Model1DF=pd.DataFrame([[0,1,np.nan],[2,np.nan,3],[np.nan,2,

python - 使用 scikit-learn 对随机森林进行递归特征消除

我正在尝试使用scikit-learn和随机森林分类器执行递归特征消除,并使用OOBROC作为对递归过程中创建的每个子集进行评分的方法。但是,当我尝试使用RFECV方法时,我收到一条错误消息AttributeError:'RandomForestClassifier'objecthasnoattribute'coef_'随机森林本身没有系数,但它们确实有根据基尼分数进行的排名。所以,我想知道如何解决这个问题。请注意,我想使用一种方法来明确告诉我在最佳分组中选择了我的pandasDataFrame中的哪些特征,因为我正在使用递归特征选择来尽量减少数据我将输入到最终的分类器中。下面是一些示

python - scikit-learn cross_val_predict 准确度分数是如何计算的?

cross_val_predict(参见doc,v0.18)是否使用如下代码所示的k-fold方法计算每个折叠的准确度并最终平均它们或不?cv=KFold(len(labels),n_folds=20)clf=SVC()ypred=cross_val_predict(clf,td,labels,cv=cv)accuracy=accuracy_score(labels,ypred)printaccuracy 最佳答案 不,它没有!根据crossvalidationdoc页面,cross_val_predict不返回任何分数,而只返回基

python - 在 python/scikit/numpy 中替代 r 的指数平滑状态空间模型

在R中,我们有一个很好的预测模型,例如:ets(y,model="ZZZ",damped=NULL,alpha=NULL,beta=NULL,gamma=NULL,phi=NULL,additive.only=FALSE,lambda=NULL,lower=c(rep(0.0001,3),0.8),upper=c(rep(0.9999,3),0.98),opt.crit=c("lik","amse","mse","sigma","mae"),nmse=3,bounds=c("both","usual","admissible"),ic=c("aicc","aic","bic"),res

python - 使用 scikit learn 获取信息量最大的特征时遇到问题?

我试图从textualcorpus中获取信息量最大的特征。.从这个很好的回答question我知道这个任务可以按如下方式完成:defmost_informative_feature_for_class(vectorizer,classifier,classlabel,n=10):labelid=list(classifier.classes_).index(classlabel)feature_names=vectorizer.get_feature_names()topn=sorted(zip(classifier.coef_[labelid],feature_names))[-n: