$sklearn

python - Numpy、Pandas 和 Sklearn 中的多维缩放拟合(ValueError)

我正在尝试使用sklearn、pandas和numpy进行多维缩放。我使用的数据文件有10个数字列，没有缺失值。我正在尝试获取这十维数据并使用sklearn.manifold的多维缩放在二维中将其可视化，如下所示:importnumpyasnpimportpandasaspdfromsklearnimportmanifoldfromsklearn.metricsimporteuclidean_distancesseed=np.random.RandomState(seed=3)data=pd.read_csv('data/big-file.csv')#startsmalldonttak

多维 ValueError similarities sklearn euclidean_distances python numpy pandas scikit-learn

python - sklearn train_test_split on pandas 按多列分层

我是sklearn的新用户，在sklearn.model_selection的train_test_split中遇到了一些意外行为。我有一个pandasdataframe，我想将其分成训练集和测试集。我想在我的dataframe中按至少2列(但最好是4列)对我的数据进行分层。当我尝试这样做时，sklearn没有发出警告，但后来我发现在我的最终数据集中有重复的行。我创建了一个示例测试来展示这种行为:fromsklearn.model_selectionimporttrain_test_splita=np.array([iforiinrange(1000000)])b=[i%10forii

多列 train_test_split code train python pandas scikit-learn

python - 如何使用 sklearn 计算词-词共现矩阵？

我正在sklearn中寻找一个模块，它可以让您推导出词-词共现矩阵。我可以获得文档-术语矩阵，但不确定如何获取同现的词-词矩阵。最佳答案这是我在scikit-learn中使用CountVectorizer的示例解决方案。并引用这个post，你可以简单地使用矩阵乘法来得到词-词共现矩阵。fromsklearn.feature_extraction.textimportCountVectorizerdocs=['thisthisthisbook','thiscatgood','catgoodshit']count_model=Cou

sklearn python code section this matrix scikit-learn

python - 从 sklearn 中的 Pipeline 对象返回系数

我用RandomizedSearchCV安装了一个Pipeline对象pipe_sgd=Pipeline([('scl',StandardScaler()),('clf',SGDClassifier(n_jobs=-1))])param_dist_sgd={'clf__loss':['log'],'clf__penalty':[None,'l1','l2','elasticnet'],'clf__alpha':np.linspace(0.15,0.35),'clf__n_iter':[3,5,7]}sgd_randomized_pipe=RandomizedSearchCV(estim

Pipeline sklearn code 39 section python machine-learning scikit-learn cross-validation scikit-learn-pipeline

python - 计算多类的sklearn.roc_auc_score

我想计算我的分类器的AUC、精确度和准确度。我在做监督学习:这是我的工作代码。此代码适用于二进制类，但不适用于多类。请假设您有一个包含二进制类的数据框:sample_features_dataframe=self._get_sample_features_dataframe()labeled_sample_features_dataframe=retrieve_labeled_sample_dataframe(sample_features_dataframe)labeled_sample_features_dataframe,binary_class_series,multi_cla

roc_auc_score sklearn dataframe class selected_classifier python scikit-learn supervised-learning

python - sklearn DecisionTreeClassifier 中 min_samples_split 和 min_samples_leaf 的区别

我正在上sklearn课DecisionTreeClassifier.查看类的参数，我们有两个参数min_samples_split和min_samples_leaf。它们背后的基本思想看起来很相似，您可以指定决定一个节点是叶节点还是进一步拆分所需的最小样本数。当一个暗示另一个时，为什么我们需要两个参数？。有什么理由或场景可以区分它们吗？最佳答案来自文档:Themaindifferencebetweenthetwoisthatmin_samples_leafguaranteesaminimumnumberofsamplesina

samples DecisionTreeClassifier strong code python scikit-learn

python - 测试是否已安装 sklearn 模型的最佳方法是什么？

检查sklearn模型是否已拟合的最优雅方法是什么？即它的fit()函数在实例化后是否被调用。最佳答案你可以这样做:fromsklearn.exceptionsimportNotFittedErrorformodelinmodels:try:model.predict(some_test_data)exceptNotFittedErrorase:print(repr(e))理想情况下，您会根据预期结果检查model.predict的结果，但如果您想知道模型是否适合，这就足够了。更新:一些评论者建议使用check_is_fitte

sklearn python code check_is_fitted fitted scikit-learn

python - 让 PyCharm 导入 sklearn

这里是初学者。我正在尝试在pycharm中使用sklearn。导入sklearn时，出现错误“导入错误:没有名为sklearn的模块”pycharm中的项目解释器设置为2.7.10(/anaconda/bin/python.app)，应该是正确的。在默认首选项、项目解释器下，我看到了所有anacondas包。我双击并安装了软件包scikitlearn和sklearn。我仍然收到“导入错误:没有名为sklearn的模块”有谁知道如何解决这个问题？最佳答案要确保您的PyCharmIDE上安装了Scikit-learn包，请转至文件菜

sklearn python code section scikit-learn python-import anaconda

python - 想知道 pd.factorize、pd.get_dummies、sklearn.preprocessing.LableEncoder 和 OneHotEncoder 之间的区别

关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗？通过editingthispost添加细节并澄清问题.关闭6年前。Improvethisquestion这四个功能在我看来真的很相似。在某些情况下，其中一些可能会给出相同的结果，而有些则不会。任何帮助将不胜感激!现在我知道并且我假设在内部，factorize和LabelEncoder以相同的方式工作，并且在结果方面没有太大差异。我不确定他们是否会在处理大量数据时占用相似的时间。get_dummies和OneHotEncoder会产生相同的结果，但是OneHotEncoder只能处理数字，而get_d

OneHotEncoder preprocessing section code class python pandas encoding machine-learning scikit-learn

机器学习---sklearn

1.Sklearn简介sklearn(全称Scikit-Learn)是基于Python语言的机器学习工具,Sklea是处理机器学习(有监督学习和无监督学习)的包。它建立在NumPy,SciPy,Pandas和Matplotlib之上，其主要集成了数据预处理、数据特征选择，sklearn有六个任务模块和一个数据引入模块：有监督学习的分类任务有监督学习的回归任务无监督学习的聚类任务无监督学习的降维任务数据预处理任务模型选择任务数据引入具体流程如下：下载sklearn。//已经下载过Anacondacondainstallscikit-learn2.Sklearn数据2.1数据格式在Sklean里，

sklearn 机器学习 span class token python

28 29 303132 33 34