SciKit-Learn_草庐IT

python - 了解 scikit CountVectorizer 中的 min_df 和 max_df

我有五个文本文件输入到CountVectorizer。当向CountVectorizer实例指定min_df和max_df时，最小/最大文档频率究竟意味着什么？是某个词在其特定文本文件中的频率，还是该词在整个语料库(五个文本文件)中的频率？min_df和max_df以整数或float形式提供时有什么区别？Thedocumentation似乎没有提供详尽的解释，也没有提供示例来演示这两个参数的使用。有人可以提供一个解释或示例来演示min_df和max_df吗？最佳答案 max_df用于删除出现过于频繁的术语，也称为“语料库特定的停用

python - 了解 scikit CountVectorizer 中的 min_df 和 max_df

我有五个文本文件输入到CountVectorizer。当向CountVectorizer实例指定min_df和max_df时，最小/最大文档频率究竟意味着什么？是某个词在其特定文本文件中的频率，还是该词在整个语料库(五个文本文件)中的频率？min_df和max_df以整数或float形式提供时有什么区别？Thedocumentation似乎没有提供详尽的解释，也没有提供示例来演示这两个参数的使用。有人可以提供一个解释或示例来演示min_df和max_df吗？最佳答案 max_df用于删除出现过于频繁的术语，也称为“语料库特定的停用

CountVectorizer python code strong section machine-learning scikit-learn nlp

python - 谁能解释一下 StandardScaler？

我无法理解pagesklearn文档中的StandardScaler。谁能简单的给我解释一下？最佳答案简介我假设您有一个矩阵X，其中每个行/行是一个样本/观察并且每个列是一个变量/特征(顺便说一下，这是任何sklearnML函数的预期输入——X.shape应该是[number_of_samples,number_of_features])。方法的核心主要思想是规范化/标准化，即μ=0和σ=1的特征/变量/列X，单独，在应用任何机器学习模型之前。StandardScaler()willnormalizethefeaturesi.e

StandardScaler python strong code machine-learning scikit-learn scaling standardized

python - 谁能解释一下 StandardScaler？

我无法理解pagesklearn文档中的StandardScaler。谁能简单的给我解释一下？最佳答案简介我假设您有一个矩阵X，其中每个行/行是一个样本/观察并且每个列是一个变量/特征(顺便说一下，这是任何sklearnML函数的预期输入——X.shape应该是[number_of_samples,number_of_features])。方法的核心主要思想是规范化/标准化，即μ=0和σ=1的特征/变量/列X，单独，在应用任何机器学习模型之前。StandardScaler()willnormalizethefeaturesi.e

StandardScaler python strong code machine-learning scikit-learn scaling standardized

python - scikit-learn .predict() 默认阈值

我正在处理不平衡类(5%1)的分类问题。我想预测类别，而不是概率。在一个二元分类问题中，scikit的classifier.predict()是否默认使用0.5？如果没有，默认方法是什么？如果是，我该如何更改？在scikit中，一些分类器具有class_weight='auto'选项，但并非所有分类器都有。使用class_weight='auto'，.predict()是否会以实际人口比例作为阈值？在像MultinomialNB这样不支持class_weight的分类器中，有什么方法可以做到这一点？除了使用predict_proba()然后自己计算类。最佳

scikit-learn predict code section python machine-learning classification

python - scikit-learn .predict() 默认阈值

我正在处理不平衡类(5%1)的分类问题。我想预测类别，而不是概率。在一个二元分类问题中，scikit的classifier.predict()是否默认使用0.5？如果没有，默认方法是什么？如果是，我该如何更改？在scikit中，一些分类器具有class_weight='auto'选项，但并非所有分类器都有。使用class_weight='auto'，.predict()是否会以实际人口比例作为阈值？在像MultinomialNB这样不支持class_weight的分类器中，有什么方法可以做到这一点？除了使用predict_proba()然后自己计算类。最佳

scikit-learn predict code section python machine-learning classification

python - scikit-learn 中的分层训练/测试拆分

我需要将我的数据分成训练集(75%)和测试集(25%)。我目前使用以下代码执行此操作:X,Xt,userInfo,userInfo_train=sklearn.cross_validation.train_test_split(X,userInfo)但是，我想对我的训练数据集进行分层。我怎么做？我一直在研究StratifiedKFold方法，但没有让我指定75%/25%的分割，只对训练数据集进行分层。最佳答案 [0.17更新]参见sklearn.model_selection.train_test_split的文档:fromskl

scikit-learn 训练 train section code python

python - scikit-learn 中的分层训练/测试拆分

我需要将我的数据分成训练集(75%)和测试集(25%)。我目前使用以下代码执行此操作:X,Xt,userInfo,userInfo_train=sklearn.cross_validation.train_test_split(X,userInfo)但是，我想对我的训练数据集进行分层。我怎么做？我一直在研究StratifiedKFold方法，但没有让我指定75%/25%的分割，只对训练数据集进行分层。最佳答案 [0.17更新]参见sklearn.model_selection.train_test_split的文档:fromskl

scikit-learn 训练 train section code python

python - Python中的主成分分析(PCA)

我有一个(26424x144)数组，我想使用Python对其执行PCA。但是，网络上没有特定的地方可以解释如何完成此任务(有些网站只是根据自己的方式进行PCA-我找不到通用的方法)。任何有任何帮助的人都会做得很好。最佳答案即使已经接受了另一个答案，我还是发布了我的答案；接受的答案依赖于deprecatedfunction;此外，这个已弃用的函数基于奇异值分解(SVD)，它(虽然完全有效)是计算PCA的两种通用技术中更占用内存和处理器的。由于OP中数据数组的大小，这在这里特别重要。使用基于协方差的PCA，计算流程中使用的数组只是1

python data strong eigenvectors scikit-learn pca

python - Python中的主成分分析(PCA)

我有一个(26424x144)数组，我想使用Python对其执行PCA。但是，网络上没有特定的地方可以解释如何完成此任务(有些网站只是根据自己的方式进行PCA-我找不到通用的方法)。任何有任何帮助的人都会做得很好。最佳答案即使已经接受了另一个答案，我还是发布了我的答案；接受的答案依赖于deprecatedfunction;此外，这个已弃用的函数基于奇异值分解(SVD)，它(虽然完全有效)是计算PCA的两种通用技术中更占用内存和处理器的。由于OP中数据数组的大小，这在这里特别重要。使用基于协方差的PCA，计算流程中使用的数组只是1

python data strong eigenvectors scikit-learn pca