草庐IT

SciKit-Learn

全部标签

python - 基于距离矩阵的词聚类

我的目标是根据单词与文本文档语料库的相似程度对单词进行聚类。我计算了每对单词之间的Jaccard相似度。换句话说,我有一个稀疏距离矩阵可用。谁能指出任何将距离矩阵作为输入的聚类算法(可能还有它在Python中的库)?我事先也不知道集群的数量。我只想对这些单词进行聚类,并获得哪些单词被聚类在一起。 最佳答案 您可以在scikit-learn中使用带有预先计算的距离矩阵的大多数算法。不幸的是,您需要许多算法的集群数量。DBSCAN是唯一一个不需要簇数并且还使用任意距离矩阵的算法。你也可以试试MeanShift,但这会将距离解释为坐标-这

python - 基于距离矩阵的词聚类

我的目标是根据单词与文本文档语料库的相似程度对单词进行聚类。我计算了每对单词之间的Jaccard相似度。换句话说,我有一个稀疏距离矩阵可用。谁能指出任何将距离矩阵作为输入的聚类算法(可能还有它在Python中的库)?我事先也不知道集群的数量。我只想对这些单词进行聚类,并获得哪些单词被聚类在一起。 最佳答案 您可以在scikit-learn中使用带有预先计算的距离矩阵的大多数算法。不幸的是,您需要许多算法的集群数量。DBSCAN是唯一一个不需要簇数并且还使用任意距离矩阵的算法。你也可以试试MeanShift,但这会将距离解释为坐标-这

python - 如何绘制 scikit learn 分类报告?

是否可以使用matplotlibscikit-learn分类报告进行绘图?假设我这样打印分类报告:print'\n*ClassificationReport:\n',classification_report(y_test,predictions)confusion_matrix_graph=confusion_matrix(y_test,predictions)我得到:ClasificationReport:precisionrecallf1-scoresupport10.621.000.766620.930.930.934030.590.970.736740.470.920.622

python - 如何绘制 scikit learn 分类报告?

是否可以使用matplotlibscikit-learn分类报告进行绘图?假设我这样打印分类报告:print'\n*ClassificationReport:\n',classification_report(y_test,predictions)confusion_matrix_graph=confusion_matrix(y_test,predictions)我得到:ClasificationReport:precisionrecallf1-scoresupport10.621.000.766620.930.930.934030.590.970.736740.470.920.622

python - sklearn.cross_validation.StratifiedShuffleSplit - 错误 : "indices are out-of-bounds"

我试图使用Scikit-learn的StratifiedShuffleSplit拆分样本数据集。我按照Scikit-learn文档here中显示的示例进行操作。importpandasaspdimportnumpyasnp#UCI'swinedatasetwine=pd.read_csv("https://s3.amazonaws.com/demo-datasets/wine.csv")#separatetargetvariablefromdatasettarget=wine['quality']data=wine.drop('quality',axis=1)#StratifiedSp

python - sklearn.cross_validation.StratifiedShuffleSplit - 错误 : "indices are out-of-bounds"

我试图使用Scikit-learn的StratifiedShuffleSplit拆分样本数据集。我按照Scikit-learn文档here中显示的示例进行操作。importpandasaspdimportnumpyasnp#UCI'swinedatasetwine=pd.read_csv("https://s3.amazonaws.com/demo-datasets/wine.csv")#separatetargetvariablefromdatasettarget=wine['quality']data=wine.drop('quality',axis=1)#StratifiedSp

python - 从管道获取模型属性

我通常会得到这样的PCA加载:pca=PCA(n_components=2)X_t=pca.fit(X).transform(X)loadings=pca.components_如果我使用scikit-learn管道运行PCA:fromsklearn.pipelineimportPipelinepipeline=Pipeline(steps=[('scaling',StandardScaler()),('pca',PCA(n_components=2))])X_t=pipeline.fit_transform(X)是否有可能获得负载?简单地尝试loadings=pipeline.com

python - 从管道获取模型属性

我通常会得到这样的PCA加载:pca=PCA(n_components=2)X_t=pca.fit(X).transform(X)loadings=pca.components_如果我使用scikit-learn管道运行PCA:fromsklearn.pipelineimportPipelinepipeline=Pipeline(steps=[('scaling',StandardScaler()),('pca',PCA(n_components=2))])X_t=pipeline.fit_transform(X)是否有可能获得负载?简单地尝试loadings=pipeline.com

python - sklearn : TFIDF Transformer : How to get tf-idf values of given words in document

我使用sklearn使用以下命令计算文档的TFIDF(词频逆文档频率)值:fromsklearn.feature_extraction.textimportCountVectorizercount_vect=CountVectorizer()X_train_counts=count_vect.fit_transform(documents)fromsklearn.feature_extraction.textimportTfidfTransformertf_transformer=TfidfTransformer(use_idf=False).fit(X_train_counts)X_

python - sklearn : TFIDF Transformer : How to get tf-idf values of given words in document

我使用sklearn使用以下命令计算文档的TFIDF(词频逆文档频率)值:fromsklearn.feature_extraction.textimportCountVectorizercount_vect=CountVectorizer()X_train_counts=count_vect.fit_transform(documents)fromsklearn.feature_extraction.textimportTfidfTransformertf_transformer=TfidfTransformer(use_idf=False).fit(X_train_counts)X_