草庐IT

$sklearn

全部标签

python - 如何优雅地将 Sklearn GridsearchCV 最佳参数传递给另一个模型?

我用GridSearchCV为我的KNN估计器找到了一组最佳超参数:>>>knn_gridsearch_model.best_params_{'algorithm':'auto','metric':'manhattan','n_neighbors':3}到目前为止,还不错。我想用这些新发现的参数训练我的最终估计器。有没有办法直接将上面的超参数字典提供给它?我试过这个:>>>new_knn_model=KNeighborsClassifier(knn_gridsearch_model.best_params_)但相反,希望的结果new_knn_model只是将整个字典作为模型的第一个参数

python sklearn多元线性回归显示r平方

我计算了我的多元线性回归方程,我想查看调整后的R平方。我知道分数函数可以让我看到r平方,但它没有调整。importpandasaspd#importthepandasmoduleimportnumpyasnpdf=pd.read_csv('/Users/jeangelj/Documents/training/linexdata.csv',sep=',')dfAverageNumberofTicketsNumberofEmployeesValueofContractIndustry015125750Retail196825000Services2206740000Services3112

python - 保存部分 sklearn 管道

模型中的一些特征可能需要一些时间才能生成,因此要快速试验多个特征和参数,最好将它们保存到磁盘以备后用。作为一个具体示例(取自here),假设我有以下管道:pipeline=Pipeline([('extract_essays',EssayExractor()),('features',FeatureUnion([('ngram_tf_idf',Pipeline([('counts',CountVectorizer()),('tf_idf',TfidfTransformer())])),('essay_length',LengthTransformer()),('misspellings

python - sklearn选择Kbest : which variables were chosen?

我正在尝试让sklearn为线性回归选择最佳的k个变量(例如k=1)。这行得通,我可以获得R平方,但它没有告诉我哪些变量是最好的。我怎样才能找到它?我有以下形式的代码(真正的变量列表要长得多):X=[]foriinrange(len(df)):X.append([averageindegree[i],indeg3_sum[i],indeg5_sum[i],indeg10_sum[i])training=[]actual=[]counter=0forfoldinrange(500):X_train,X_test,y_train,y_test=crossval.train_test_spl

python - sklearn.ensemble.AdaBoostClassifier 不能接受 SVM 作为 base_estimator?

我正在做一个文本分类任务。现在我想使用ensemble.AdaBoostClassifier和LinearSVC作为base_estimator。但是,当我尝试运行代码时clf=AdaBoostClassifier(svm.LinearSVC(),n_estimators=50,learning_rate=1.0,algorithm='SAMME.R')clf.fit(X,y)发生错误。TypeError:AdaBoostClassifierwithalgorithm='SAMME.R'要求弱学习器支持使用predict_proba方法计算类别概率第一个问题是svm.LinearSVC

python - 使用 sklearn 的 KFold 分离 Pandas 数据框

我已经通过下面的代码获得了训练集和测试集的索引。df=pandas.read_pickle(filepath+filename)kf=KFold(n_splits=n_splits,shuffle=shuffle,random_state=randomState)result=next(kf.split(df),None)#traincanbeaccessedwithresult[0]#testcanbeaccessedwithresult[1]我想知道是否有更快的方法将它们与我检索到的行索引分别分成2个数据帧。 最佳答案 你需要D

python - 基于列的sklearn分层抽样

我有一个相当大的CSV文件,其中包含我读入Pandas数据框的亚马逊评论数据。我想将数据拆分为80-20(训练测试),但在这样做时我想确保拆分数据按比例代表一列(类别)的值,即所有不同类别的评论都出现在火车中并按比例测试数据。数据如下所示:**ReviewerID****ReviewText****Categories****ProductId**1212goodproductMobile144444251233willbuyagaindrugs3245325432notrecomendeddvd789654123我使用以下代码来执行此操作:importpandasaspdMeta=p

python - sklearn 分类器获取 ValueError : bad input shape

我有一个csv,结构是CAT1,CAT2,TITLE,URL,CONTENT,CAT1,CAT2,TITLE,CONTENT为中文。我想用X(TITLE)和特征(CAT1,CAT2)训练LinearSVC或MultinomialNB,两者都会出现此错误。下面是我的代码:PS:我通过这个例子写了下面的代码scikit-learntext_analyticsimportnumpyasnpimportcsvfromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.svmimportLinearSVCfromskle

python - sklearn 分类器获取 ValueError : bad input shape

我有一个csv,结构是CAT1,CAT2,TITLE,URL,CONTENT,CAT1,CAT2,TITLE,CONTENT为中文。我想用X(TITLE)和特征(CAT1,CAT2)训练LinearSVC或MultinomialNB,两者都会出现此错误。下面是我的代码:PS:我通过这个例子写了下面的代码scikit-learntext_analyticsimportnumpyasnpimportcsvfromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.svmimportLinearSVCfromskle

python - 如何将 sklearn 决策树规则提取到 pandas bool 条件?

帖子太多了likethis关于如何提取sklearn决策树规则,但我找不到任何关于使用pandas的信息。取thisdataandmodel例如,如下#CreateDecisionTreeclassiferobjectclf=DecisionTreeClassifier(criterion="entropy",max_depth=3)#TrainDecisionTreeClassiferclf=clf.fit(X_train,y_train)结果:预期:这个例子有8条规则。从左到右,注意dataframe是dfr1=(df['glucose']127.5)&(df['bmi']>28.