scikit-bio

python - 在 scikit 学习中从 LDA 获取主题词分布

我想知道scikitlearn的LDA实现中是否有返回主题词分布的方法。就像genismshow_topics()方法一样。我检查了文档，但没有找到任何内容。最佳答案看看sklearn.decomposition.LatentDirichletAllocation.components_:components_:array,[n_topics,n_features]Topicworddistribution.components_[i,j]representswordjintopici.这是一个最小的例子:importnumpy

python scikit 39 topic words scikit-learn lda

python - Scikit-learn 凝聚聚类连通性矩阵

我正在尝试使用sklearn的凝聚聚类命令执行约束聚类。为了使算法受到约束，它需要一个“连接矩阵”。这被描述为:Theconnectivityconstraintsareimposedviaanconnectivitymatrix:ascipysparsematrixthathaselementsonlyattheintersectionofarowandacolumnwithindicesofthedatasetthatshouldbeconnected.Thismatrixcanbeconstructedfroma-prioriinformation:forinstance,you

Scikit-learn python connectivity code section hierarchical-clustering

python - scikit-learn分区数据中的LassoCV如何实现？

我在sklearn中使用套索方法执行线性回归。根据他们的指导以及我在其他地方看到的指导，与其简单地对所有训练数据进行交叉验证，不如将其拆分为更传统的训练集/验证集分区。套索因此在训练集上进行训练，然后根据验证集交叉验证的结果调整超参数alpha。最后，在测试集上使用接受的模型来给出一个真实的View，哦它在现实中的表现。将关注点分开是防止过度拟合的一种预防措施。实际问题LassoCV是否符合上述协议(protocol)，或者它只是以某种方式在相同数据和/或相同轮次CV中训练模型参数和超参数？谢谢。最佳答案如果您将sklearn.

scikit-learn LassoCV code section 训练 python regression cross-validation

python - 在 Scikit 中加载自定义数据集(类似于 20 个新闻组集)以对文本文档进行分类

我正在尝试运行thisscikitexamplecode对于我的TedTalks自定义数据集。每个目录都是一个主题，主题下是包含每个Ted演讲描述的文本文件。这就是我的数据集树结构。如您所见，每个目录都是一个主题，下面是带有描述的文本文件。Topics/|--Activism||--1149.txt||--1444.txt||--157.txt||--1616.txt||--1706.txt||--1718.txt|--Adventure||--1036.txt||--1777.txt||--2930.txt||--2968.txt||--3027.txt||--3290.txt|--

自定中加 data train code python machine-learning dataset nlp scikit-learn

python - 使用 python 和 scikit-learn 的 DBSCAN : What exactly are the integer labes returned by make_blobs?

我正在尝试理解由scikit(http://scikit-learn.org/0.13/auto_examples/cluster/plot_dbscan.html)实现的DBSCAN算法的示例。我换了行X,labels_true=make_blobs(n_samples=750,centers=centers,cluster_std=0.4)使用X=my_own_data，因此我可以将自己的数据用于DBSCAN。现在，变量labels_true是make_blobs的第二个返回参数，用于计算结果的一些值，如下所示:print"Homogeneity:%0.3f"%metrics.ho

python scikit-learn code labels labels_true dbscan

python - 使用 scikit-learn python 的线性 SVM 时出现 ValueError

我目前正在研究ODP文档的大规模分层文本分类。提供给我的数据集是libSVM格式的。我正在尝试运行python的scikit-learn的线性核SVM来开发模型。以下是来自训练样本的样本数据:299454:111742:118884:1426840:135147:152782:172083:173244:178945:179913:179986:186710:3117286:1139820:1142458:1146315:1151005:2161454:3172237:11091130:11113562:11133451:11139046:11157534:11180618:21182

时出 python 1.0 code 1857 scikit-learn svm

python - 实现自定义 scikit-learn 估算器的完整规范是什么？

我正在推出自己的预测器，并希望像使用任何scikit例程(例如RandomForestRegressor)一样使用它。我有一个包含fit和predict方法的类，它们似乎工作正常。但是，当我尝试使用某些scikit方法(例如交叉验证)时，出现如下错误:Traceback(mostrecentcalllast):File"",line1,inFile"C:\Python27\lib\site-packages\sklearn\cross_validation.py",line1152,incross_val_scorefortrain,testincv)File"C:\Python27\

自定估算 code section scikit python scikit-learn

python - Scikit Learn - 从特征数组的语料库而不是原始文档的语料库计算 TF-IDF

Scikit-Learn的TfidfVectorizer将原始文档集合转换为TF-IDF特征矩阵。我想将特征名称矩阵转换为TF-IDF特征，而不是原始文档。您输入fit_transform()的语料库应该是一组原始文档，但我希望能够将它(或类似函数)输入一组数组每个文档的功能。例如:corpus=[['orange','red','blue'],['orange','yellow','red'],['orange','green','purple(ifyoubelieveinpurple)'],['orange','reddishorange','blackandblue']]...与

语料 python 39 section machine-learning scikit-learn tf-idf

python - scikit-learn python 中带 Bootstrap 的随机森林 = False

如果我们选择bootstrap=False，RandomForestClassifier()会做什么？根据这个链接中的定义http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifierbootstrap:boolean,optional(default=True)Whetherbootstrapsamplesareusedwhenbuildingtrees.问这个是因为我想对时间序列使

中带 python section bootstrap machine-learning scikit-learn

python - scikit-learn GMM 产生正对数概率

我正在使用pythonscikit-learn包中的高斯混合模型来训练我的数据集，但是，我在编码时发现了这一点--G=mixture.GMM(...)--G.fit(...)--G.score(和特征)得到的对数概率是正实数...这是为什么呢？不是对数概率保证为负吗？我明白了。高斯混合模型返回给我们的是对数概率“密度”而不是概率“质量”，因此正值是完全合理的。如果协方差矩阵接近于奇异，那么GMM将不会表现良好，通常这意味着数据不适合此类生成任务最佳答案正对数概率没问题。请记住，GMM计算的概率是概率密度函数(PDF)，因此在任何

scikit-learn python section 近于 GMM machine-learning mixture-model

39 40 414243 44 45