sklearn_pca_草庐IT

python - sklearn : How to speed up a vectorizer (eg Tfidfvectorizer)

在彻底分析我的程序后，我已经能够确定它正在被矢量化器减慢。我正在处理文本数据，两行简单的tfidfunigram向量化占用了代码执行总时间的99.2%。这是一个可运行的示例(这会将一个3mb的训练文件下载到您的磁盘，省略urllib部分以在您自己的示例上运行):######################################LoadingData#####################################importurllibfromsklearn.feature_extraction.textimportTfidfVectorizerimportnltk.

Tfidfvectorizer vectorizer analyzer gt english python scikit-learn nltk

python - Sklearn 将 fit() 参数传递给管道中的 xgboost

类似于Howtopassaparametertoonlyonepartofapipelineobjectinscikitlearn?我只想将参数传递给管道的一部分。通常，它应该像这样正常工作:estimator=XGBClassifier()pipeline=Pipeline([('clf',estimator)])并像这样执行pipeline.fit(X_train,y_train,clf__early_stopping_rounds=20)但它失败了:/usr/local/lib/python3.5/site-packages/sklearn/pipeline.pyinfit(se

传递 Sklearn early_stopping_rounds xgboost section python scikit-learn pipeline keyword-argument

python - 如何使用 PCA 和 scikit-learn 进行标准化

让我保持简短。基本上我想知道的是:我应该这样做吗，pca.fit(normalize(x))new=pca.transform(normalize(x))或者这个pca.fit(normalize(x))new=pca.transform(x)我知道我们应该在使用PCA之前对我们的数据进行归一化，但是上面哪一个过程对于sklearn是正确的？最佳答案通常，您会希望使用第一个选项。您的规范化将您的数据放置在PCA看到的新空间中，其转换基本上期望数据位于同一空间中。Scikit-learn提供的工具可通过在管道中串联估算器来透明且方

scikit-learn python code section StandardScaler

python - PCA 分析后的特征/变量重要性

我对我的原始数据集进行了PCA分析，并从PCA转换的压缩数据集中选择了我想要保留的PC数量(它们解释了几乎94%的方差)。现在我正在努力识别缩减数据集中重要的原始特征。如何找出降维后剩余的主成分中哪些特征重要，哪些不重要？这是我的代码:fromsklearn.decompositionimportPCApca=PCA(n_components=8)pca.fit(scaledDataset)projection=pca.transform(scaledDataset)此外，我还尝试在缩减数据集上执行聚类算法，但令我惊讶的是，分数低于原始数据集。这怎么可能？

重要性 python code strong components machine-learning scikit-learn pca feature-selection

python - 为什么 OLS 回归的 `sklearn` 和 `statsmodels` 实现给出不同的 R^2？

无意中我注意到，sklearn和statsmodels实现的OLS模型在不拟合截距时会产生不同的R^2值。否则他们似乎工作正常。以下代码产生:importnumpyasnpimportsklearnimportstatsmodelsimportsklearn.linear_modelasslimportstatsmodels.apiassmnp.random.seed(42)N=1000X=np.random.normal(loc=1,size=(N,1))Y=2*X.flatten()+4+np.random.normal(size=N)sklernIntercept=sl.Line

statsmodels sklearn code blockquote python python-3.x scikit-learn linear-regression

python - 你如何从 sklearn.cluster.ward_tree 可视化病房树？

在sklearn中，实现了一种凝聚聚类算法，即ward方法最小化方差。通常sklearn有很多很好的用法示例，但我找不到如何使用此功能的示例。基本上我的问题是根据数据的聚类绘制树状图，但我不理解函数的输出。documentation说它返回子节点、组件数、叶子数和每个节点的父节点。然而，对于我的数据样本，结果没有任何意义。对于已使用连接矩阵聚类的(32,542)矩阵，这是输出:>>>wt=ward_tree(mymat,connectivity=connectivity,n_clusters=2)>>>mymat.shape(32,542)>>>wt(array([[16,0],[17

病房 ward_tree 39 section node_id python machine-learning scikit-learn hierarchical-clustering

python - 用于改变 X 和 y 的 sklearn 管道的自定义转换器

我想创建自己的转换器以与sklearnPipeline一起使用。我正在创建一个同时实现fit和transform方法的类。转换器的目的是从矩阵中删除具有超过指定数量的NaN的行。我面临的问题是如何更改传递给转换器的X和y矩阵？我认为这必须在fit方法中完成，因为它可以访问X和y。由于python通过赋值传递参数，一旦我将X重新分配给行数较少的新矩阵，对原始X的引用就会丢失(当然对y也是如此)。是否可以维护此引用？我正在使用pandasDataFrame轻松删除包含太多NaN的行，这可能不是我用例的正确方法。当前代码如下所示:classDropna():#threshismaxnumbe

自定 sklearn section thresh self python pandas numpy machine-learning scikit-learn

python - sklearn 问题 : Found arrays with inconsistent numbers of samples when doing regression

这个问题之前似乎有人问过，但我似乎无法评论以进一步澄清已接受的答案，而且我无法弄清楚所提供的解决方案。我正在尝试学习如何使用sklearn处理我自己的数据。我基本上只是得到了过去100年中两个不同国家GDP的年度百分比变化。我现在只是想学习使用单个变量。我基本上想做的是使用sklearn来预测国家A的GDP百分比变化将给定国家B的GDP的百分比变化。问题是我收到一条错误消息:ValueError:Foundarrayswithinconsistentnumbersofsamples:[1107]这是我的代码:importsklearn.linear_modelaslmimportnum

inconsistent regression sklearn section chntrain python arrays numpy machine-learning scikit-learn

python - sklearn MiniBatchKMeans 中的弃用警告

vectors=model.syn0n_clusters_kmeans=20#moreforvisualization100betterforclusteringmin_kmeans=MiniBatchKMeans(init='k-means++',n_clusters=n_clusters_kmeans,n_init=10)min_kmeans.fit(vectors)X_reduced=TruncatedSVD(n_components=50,random_state=0).fit_transform(vectors)X_embedded=TSNE(n_components=2,p

MiniBatchKMeans sklearn section scikit-learn python machine-learning

python - 属性对 Python 中特定目标的预测能力，使用 Sklearn 中的特征选择

Scikit-Learn(或一般算法)中是否有任何特征选择方法可以赋予属性的能力/预测能力/重要性以预测特定目标的权重？例如，fromsklearn.datasetsimportload_iris，对4个属性权重中的每一个进行排序以分别预测3种鸢尾花，但对于具有~1k-10k属性的更复杂的数据集。我正在寻找类似于RandomForestClassifier中的feature_importances_的东西.但是，RandomForestClassifer为整个预测过程的每个属性赋予权重。权重不需要相加，但我想找到一种方法将特定属性子集与特定目标相关联。首先，我尝试“过度拟合”模型以丰富

Sklearn python strong noreferrer section machine-learning scikit-learn classification feature-selection