SciKit-Learn

python - 在 Python 中执行潜在类分析的正确方法是什么？

我想使用LatentClassAnalysis对数据集建模(LCA)使用Python。我找到了FactorAnalysissklearn中的类，但我不确定此类是否等同于LCA。Python中是否存在LCA的包或类？最佳答案目前，python中没有提供LCA支持的包。但是，有许多包使用不同的算法在R中执行LCA，例如(有关更多详细信息，请参阅CRAN目录):BayesLCA贝叶斯潜在类分析LCAextendLatentClassAnalysis(LCA)在扩展谱系中具有家族依赖性poLCAPolytomous变量潜在类分析rand

python - 学习 : Is there any way to debug Pipelines?

我已经为分类任务创建了一些管道，我想检查每个阶段存在/存储的信息(例如text_stats、ngram_tfidf)。我怎么能这样做。pipeline=Pipeline([('features',FeatureUnion([('text_stats',Pipeline([('length',TextStats()),('vect',DictVectorizer())])),('ngram_tfidf',Pipeline([('count_vect',CountVectorizer(tokenizer=tokenize_bigram_stem,stop_words=stopwords))

Pipelines python 39 section sklearn python-2.7 scikit-learn

python - scikit-learn 管道中具有递归特征消除的网格搜索返回错误

我正在尝试使用scikit-learn在管道中链接网格搜索和递归特征消除。带有“裸”分类器的GridSearchCV和RFE工作正常:fromsklearn.datasetsimportmake_friedman1fromsklearnimportfeature_selectionfromsklearn.grid_searchimportGridSearchCVfromsklearn.svmimportSVRX,y=make_friedman1(n_samples=50,n_features=10,random_state=0)est=SVR(kernel="linear")selec

scikit-learn python sklearn feature_selection import

python - 在 scikit-learn SVM 中缩放数据

虽然libsvm提供了用于缩放数据的工具，但使用Scikit-Learn(对于SVC分类器应该基于libSVM)我找不到缩放数据的方法。基本上我想使用4个特征，其中3个从0到1，最后一个是一个“大”高度可变的数字。如果我在libSVM中包含第四个功能(使用自动缩放我的数据的easy.py脚本)，我会得到一些非常好的结果(96%的准确率)。如果我在Scikit-Learn中包含第四个变量，准确度会下降到~78%-但如果我排除它，我得到的结果与在排除该特征时在libSVM中得到的结果相同。因此，我很确定这是缺少缩放的问题。如何以编程方式(即不调用svm-scale)复制SVM的缩放过程？

scikit-learn python section 中包 preprocessing svm libsvm

python - 如何处理 sklearn GradientBoostingClassifier 中的分类变量？

我正在尝试使用GradientBoostingClassifier训练模型使用分类变量。以下是原始代码示例，仅用于尝试将分类变量输入到GradientBoostingClassifier中。fromsklearnimportdatasetsfromsklearn.ensembleimportGradientBoostingClassifierimportpandasiris=datasets.load_iris()#Useonlydatafor2classes.X=iris.data[(iris.target==0)|(iris.target==1)]Y=iris.target[(ir

GradientBoostingClassifier 何处 indices train python machine-learning scikit-learn decision-tree ensemble-learning

python - 排名之间的距离

我有两种对字符串列表进行不同排序的方法，我们可以认为这是列表的“正确”排序(即黄金标准)。换句话说:ranked_list_of_strings_1=method_1(list_of_strings)ranked_list_of_strings_2=method_2(list_of_strings)correctly_ranked_list_of_strings#Somepermutationoflist_of_strings考虑到method_1和method_2是黑盒，我如何确定哪种方法更好？在SciPy或scikit-learn或类似库中是否有任何方法可以衡量这一点？在我的具体案

排名 python code section pandas scipy scikit-learn

machine-learning - sp_randint 是如何工作的？

我正在对随机森林分类器进行超参数优化。我打算使用RandomSearchCV。因此，通过检查Scikit中的可用代码，可以了解:sp_randint的作用是什么？它是否随机取一个从1到11的值？可以用其他功能代替吗？fromscipy.statsimportrandintassp_randintparam_dist={"n_estimators":sp_randint(1,11),"max_depth":[3,None],"max_features":sp_randint(1,11),"min_samples_split":sp_randint(1,11),"min_samples_l

machine-learning sp_randint code randint python optimization scikit-learn scipy

python - sklearn 逻辑回归 - 重要特征

我很确定以前有人问过这个问题，但我找不到答案在python上使用sklearn运行逻辑回归，我能够转换使用Transform方法将我的数据集转换为最重要的特征classf=linear_model.LogisticRegression()func=classf.fit(Xtrain,ytrain)reduced_train=func.transform(Xtrain)我如何判断哪些功能被选为最重要的？更一般地说，如何计算数据集中每个特征的p值？最佳答案正如上面评论中所建议的，您可以(并且应该)在拟合之前缩放数据，从而使系数具有可

sklearn python feature_importance section importance scikit-learn feature-selection

python - 如何将带有 keras 回归器的 scikit-learn 管道保存到磁盘？

我有一个带有kerasRegressor的scikit-learn管道:estimators=[('standardize',StandardScaler()),('mlp',KerasRegressor(build_fn=baseline_model,nb_epoch=5,batch_size=1000,verbose=1))]pipeline=Pipeline(estimators)训练管道后，我尝试使用joblib保存到磁盘...joblib.dump(pipeline,filename,compress=9)但是我得到一个错误:RuntimeError:maximumrecur

scikit-learn python pipeline model section machine-learning keras joblib

python:如何在 scikit 学习分类器 (SVM) 等中使用 POS(词性)特征

我想将nltk.pos_tag返回的词性(POS)用于sklearn分类器，如何将它们转换为向量并使用它？例如sent="这是POS示例"tok=nltk.tokenize.word_tokenize(已发送)pos=nltk.pos_tag(tok)打印(位置)返回以下内容[('This','DT'),('is','VBZ'),('POS','NNP'),('example','NN')]现在我无法应用任何矢量化器(DictVectorizer，或FeatureHasher，来自scikitlearn的CountVectorizer)在分类器中使用请推荐

何在 python 39 section 矢量化 machine-learning scikit-learn nltk

22 23 242526 27 28