草庐IT

sklearn_pca

全部标签

python - 如何在 Sklearn Pipeline 中进行 Onehotencoding

我正在尝试对我的Pandas数据框的分类变量进行oneHotEncode,其中包括分类变量和连续变量。我意识到这可以使用pandas.get_dummies()函数轻松完成,但我需要使用管道以便稍后生成PMML文件。这是创建映射器的代码。我想要编码的分类变量存储在名为“dummies”的列表中。fromsklearn_pandasimportDataFrameMapperfromsklearn.preprocessingimportOneHotEncoderfromsklearn.preprocessingimportLabelEncodermapper=DataFrameMapper

python - 为什么 sklearn LatentDirichletAllocation 的 fit 和 partial_fit 返回不同的结果?

奇怪的是,fit和partial_fit的代码似乎完全一样。您可以在以下链接中查看代码:https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L478 最佳答案 不完全相同的代码;partial_fit使用total_samples:"total_samples:整数,可选(默认值=1e6)文档总数。仅在partial_fit方法中使用。”https://github.com/scikit-learn

python - sklearn cross_val_score 的准确性低于手动交叉验证

我正在研究一个文本分类问题,我是这样设置的(为了简洁起见,我省略了数据处理步骤,但它们会生成一个名为data的数据框包含X和y列):importsklearn.model_selectionasmsfromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.ensembleimportRandomForestClassifiersim=Pipeline([('vec',TfidfVectorizer((analyzer="word",ngram_range=(1,2))),("rdf",RandomForest

python - sklearn LabelEncoder 和 pd.get_dummies 有什么区别?

我想知道sklearnLabelEncoder与pandasget_dummies之间的区别。为什么会选择LabelEncoder而不是get_dummies。使用一个比另一个有什么优势?缺点?据我所知,如果我有A级ClassA=["Apple","Ball","Cat"]encoder=[1,2,3]和dummy=[001,010,100]我是不是理解错了? 最佳答案 这些只是方便的功能,自然地属于这两个库分别倾向于做事的方式。第一个通过将事物更改为整数来“压缩”信息,第二个“扩展”允许(可能)更方便访问的维度。sklearn.p

python - Sklearn 尝试将字符串列表转换为 float

我正在尝试使sklearn.svm.SVC(kernel="linear")算法工作。我的X是一个由[misc.imread(each).flatten()foreachinfilenames]组成的数组,我的y2是一个由字符串组成的列表的一部分,例如["A","1","4","F"..]。当我尝试clf.fit(X,y2)时,sklearn尝试将我的字符串列表转换为float但失败,抛出ValueError:couldnotconvertstringtofloat。我该如何解决这个问题?编辑:将sklearn升级到0.15解决了问题。 最佳答案

python - Python 中的 OpenCV PCA 计算

我正在通过OpenCV(在Python中)加载一组大小为128x128的测试图像,将它们重新整形为向量(1,128x128),并将它们放在一个矩阵中以计算PCA。我正在使用新的cv2库...代码:importosimportcv2ascvimportnumpyasnpmatrix_test=Noneforimageinos.listdir('path_to_dir'):imgraw=cv.imread(os.path.join('path_to_dir',image),0)imgvector=imgraw.reshape(128*128)try:matrix_test=np.vstac

python - 在 sklearn 的双标图中绘制 PCA 加载和加载(类似于 R 的自动绘图)

我在Rw/autoplot中看到了这个教程。他们绘制了载荷和载荷标签:autoplot(prcomp(df),data=iris,colour='Species',loadings=TRUE,loadings.colour='blue',loadings.label=TRUE,loadings.label.size=3)https://cran.r-project.org/web/packages/ggfortify/vignettes/plot_pca.html我更喜欢使用Python3w/matplotlib、scikit-learn和pandas进行数据分析。但是,我不知道如何添

python - 如何仅标准化 sklearn 管道中的数字变量?

我正在尝试通过2个步骤创建一个sklearn管道:标准化数据使用KNN拟合数据但是,我的数据同时包含数字变量和分类变量,我已使用pd.get_dummies将其转换为虚拟变量。我想标准化数字变量,但让虚拟变量保持原样。我一直这样做:X=dataframecontainingbothnumericandcategoricalcolumnsnumeric=[listofnumericcolumnnames]categorical=[listofcategoricalcolumnnames]scaler=StandardScaler()X_numeric_std=pd.DataFrame(d

python - 在 sklearn 的 TfidfVectorizer 中将单词添加到 stop_words 列表

我想在TfidfVectorizer中的stop_words中再添加几个词。我遵循了Addingwordstoscikit-learn'sCountVectorizer'sstoplist中的解决方案.我的停用词列表现在包含“英语”停用词和我指定的停用词。但TfidfVectorizer仍然不接受我的停用词列表,我仍然可以在我的功能列表中看到这些词。下面是我的代码fromsklearn.feature_extractionimporttextmy_stop_words=text.ENGLISH_STOP_WORDS.union(my_words)vectorizer=TfidfVect

python - 原始 xgboost(学习 API)和 sklearn XGBClassifier(Scikit-Learn API)之间的区别

我使用下面的xgbootssklearn界面来创建和训练xgbmodel-1。clf=xgb.XGBClassifier(n_estimators=100,objective='binary:logistic',)clf.fit(x_train,y_train,early_stopping_rounds=10,eval_metric="auc",eval_set=[(x_valid,y_valid)])而xgboost模型可以通过原始xgboost创建如下model-2:param={}param['objective']='binary:logistic'param['eval_me