草庐IT

scikit-bio

全部标签

python - 在 scikit 学习中从 LDA 获取主题词分布

我想知道scikitlearn的LDA实现中是否有返回主题词分布的方法。就像genismshow_topics()方法一样。我检查了文档,但没有找到任何内容。 最佳答案 看看sklearn.decomposition.LatentDirichletAllocation.components_:components_:array,[n_topics,n_features]Topicworddistribution.components_[i,j]representswordjintopici.这是一个最小的例子:importnumpy

python - Scikit-learn 凝聚聚类连通性矩阵

我正在尝试使用sklearn的凝聚聚类命令执行约束聚类。为了使算法受到约束,它需要一个“连接矩阵”。这被描述为:Theconnectivityconstraintsareimposedviaanconnectivitymatrix:ascipysparsematrixthathaselementsonlyattheintersectionofarowandacolumnwithindicesofthedatasetthatshouldbeconnected.Thismatrixcanbeconstructedfroma-prioriinformation:forinstance,you

python - scikit-learn分区数据中的LassoCV如何实现?

我在sklearn中使用套索方法执行线性回归。根据他们的指导以及我在其他地方看到的指导,与其简单地对所有训练数据进行交叉验证,不如将其拆分为更传统的训练集/验证集分区。套索因此在训练集上进行训练,然后根据验证集交叉验证的结果调整超参数alpha。最后,在测试集上使用接受的模型来给出一个真实的View,哦它在现实中的表现。将关注点分开是防止过度拟合的一种预防措施。实际问题LassoCV是否符合上述协议(protocol),或者它只是以某种方式在相同数据和/或相同轮次CV中训练模型参数和超参数?谢谢。 最佳答案 如果您将sklearn.

python - 在 Scikit 中加载自定义数据集(类似于 20 个新闻组集)以对文本文档进行分类

我正在尝试运行thisscikitexamplecode对于我的TedTalks自定义数据集。每个目录都是一个主题,主题下是包含每个Ted演讲描述的文本文件。这就是我的数据集树结构。如您所见,每个目录都是一个主题,下面是带有描述的文本文件。Topics/|--Activism||--1149.txt||--1444.txt||--157.txt||--1616.txt||--1706.txt||--1718.txt|--Adventure||--1036.txt||--1777.txt||--2930.txt||--2968.txt||--3027.txt||--3290.txt|--

python - 使用 python 和 scikit-learn 的 DBSCAN : What exactly are the integer labes returned by make_blobs?

我正在尝试理解由scikit(http://scikit-learn.org/0.13/auto_examples/cluster/plot_dbscan.html)实现的DBSCAN算法的示例。我换了行X,labels_true=make_blobs(n_samples=750,centers=centers,cluster_std=0.4)使用X=my_own_data,因此我可以将自己的数据用于DBSCAN。现在,变量labels_true是make_blobs的第二个返回参数,用于计算结果的一些值,如下所示:print"Homogeneity:%0.3f"%metrics.ho

python - 使用 scikit-learn python 的线性 SVM 时出现 ValueError

我目前正在研究ODP文档的大规模分层文本分类。提供给我的数据集是libSVM格式的。我正在尝试运行python的scikit-learn的线性核SVM来开发模型。以下是来自训练样本的样本数据:299454:111742:118884:1426840:135147:152782:172083:173244:178945:179913:179986:186710:3117286:1139820:1142458:1146315:1151005:2161454:3172237:11091130:11113562:11133451:11139046:11157534:11180618:21182

python - 实现自定义 scikit-learn 估算器的完整规范是什么?

我正在推出自己的预测器,并希望像使用任何scikit例程(例如RandomForestRegressor)一样使用它。我有一个包含fit和predict方法的类,它们似乎工作正常。但是,当我尝试使用某些scikit方法(例如交叉验证)时,出现如下错误:Traceback(mostrecentcalllast):File"",line1,inFile"C:\Python27\lib\site-packages\sklearn\cross_validation.py",line1152,incross_val_scorefortrain,testincv)File"C:\Python27\

python - Scikit Learn - 从特征数组的语料库而不是原始文档的语料库计算 TF-IDF

Scikit-Learn的TfidfVectorizer将原始文档集合转换为TF-IDF特征矩阵。我想将特征名称矩阵转换为TF-IDF特征,而不是原始文档。您输入fit_transform()的语料库应该是一组原始文档,但我希望能够将它(或类似函数)输入一组数组每个文档的功能。例如:corpus=[['orange','red','blue'],['orange','yellow','red'],['orange','green','purple(ifyoubelieveinpurple)'],['orange','reddishorange','blackandblue']]...与

python - scikit-learn python 中带 Bootstrap 的随机森林 = False

如果我们选择bootstrap=False,RandomForestClassifier()会做什么?根据这个链接中的定义http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifierbootstrap:boolean,optional(default=True)Whetherbootstrapsamplesareusedwhenbuildingtrees.问这个是因为我想对时间序列使

python - scikit-learn GMM 产生正对数概率

我正在使用pythonscikit-learn包中的高斯混合模型来训练我的数据集,但是,我在编码时发现了这一点--G=mixture.GMM(...)--G.fit(...)--G.score(和特征)得到的对数概率是正实数...这是为什么呢?不是对数概率保证为负吗?我明白了。高斯混合模型返回给我们的是对数概率“密度”而不是概率“质量”,因此正值是完全合理的。如果协方差矩阵接近于奇异,那么GMM将不会表现良好,通常这意味着数据不适合此类生成任务 最佳答案 正对数概率没问题。请记住,GMM计算的概率是概率密度函数(PDF),因此在任何