草庐IT

sklearn_pca

全部标签

python - 如何通过索引自定义 sklearn 交叉验证迭代器?

类似于Customcrossvalidationsplitsklearn我想为GridSearchCV定义我自己的拆分,我需要为其自定义内置的交叉验证迭代器。我想将我自己的一组用于交叉验证的训练测试索引传递给GridSearch,而不是让迭代器为我确定它们。我在sklearn文档页面上浏览了可用的cv迭代器,但找不到它。例如我想实现这样的东西数据有9个样本对于2折cv,我创建了自己的一组训练测试指标>>>train_indices=[[1,3,5,7,9],[2,4,6,8]]>>>test_indices=[[2,4,6,8],[1,3,5,7,9]]1stfold^2ndfold^

python - sklearn : User defined cross validation for time series data

我正在尝试解决机器学习问题。我有一个包含时间序列元素的特定数据集。对于这个问题,我使用了著名的python库-sklearn。这个库中有很多交叉验证迭代器。还有几个迭代器用于自己定义交叉验证。问题是我真的不知道如何为时间序列定义简单的交叉验证。这是我想要获得的一个很好的例子:假设我们有几个时期(年),我们想将我们的数据集分成几个block,如下所示:data=[1,2,3,4,5,6,7]train:[1]test:[2](ortest:[2,3,4,5,6,7])train:[1,2]test:[3](ortest:[3,4,5,6,7])train:[1,2,3]test:[4](

python - 导入错误 : No module named sklearn (Python)

我想使用scikit-learn。我输入了pipinstall-Uscikit-learnpip3installsklearn安装它;但是当我输入$Python>>>importsklearn返回ImportError:Nomodulenamedsklearn我遵循了其他教程,但它不起作用。此外,我的环境返回此警告:Ifyouhaveinstalledscikit-learnfromsource,pleasedonotforgettobuildthepackagebeforeusingit:runpythonsetup.pyinstallormakeinthesourcedirecto

python - 添加新文本到 Sklearn TFIDIF Vectorizer (Python)

是否有添加到现有语料库的功能?我已经生成了我的矩阵,我希望定期添加到表中而无需重新处理整个sha-bang例如;articleList=['hereissometextblahblah','anothertextobject','morefooforyourbarrightnow']tfidf_vectorizer=TfidfVectorizer(max_df=.8,max_features=2000,min_df=.05,preprocessor=prep_text,use_idf=True,tokenizer=tokenize_text)tfidf_matrix=tfidf_vec

python - 在 sklearn.cross_validation 中使用 train_test_split 和 cross_val_score 的区别

我有一个包含20列的矩阵。最后一列是0/1标签。数据链接是here.我正在尝试使用交叉验证在数据集上运行随机森林。我使用两种方法来做到这一点:使用sklearn.cross_validation.cross_val_score使用sklearn.cross_validation.train_test_split当我做我认为几乎完全相同的事情时,我得到了不同的结果。为了举例说明,我使用上述两种方法运行双重交叉验证,如下面的代码所示。importcsvimportnumpyasnpimportpandasaspdfromsklearnimportensemblefromsklearn.me

python - 如何在sklearn中打印聚类结果

我有一个稀疏矩阵fromscipy.sparseimport*M=csr_matrix((data_np,(rows_np,columns_np)));然后我就这样进行聚类fromsklearn.clusterimportKMeanskm=KMeans(n_clusters=n,init='random',max_iter=100,n_init=1,verbose=1)km.fit(M)我的问题非常菜鸟:如何在没有任何额外信息的情况下打印聚类结果。我不关心绘图或距离。我只需要那样的簇行Cluster1row1row2row3Cluster2row4row20row1000...我怎样才

python - sklearn : Hyperparameter tuning by gradient descent?

有没有办法通过梯度下降在scikit-learn中执行超参数调整?虽然超参数梯度的公式可能难以计算,但通过评估超参数空间中的两个接近点来对超参数梯度进行数值计算应该非常容易。是否有这种方法的现有实现?为什么这种方法是个好主意? 最佳答案 梯度的计算是最少的问题。至少在先进时代automaticdifferentiation软件。(当然,对所有sklearn分类器以通用方式实现这一点并不容易)虽然有些人使用了这种想法,但他们只是针对某些特定且精心制定的问题(例如SVM调优)才这样做。此外,可能有很多假设,因为:为什么这不是一个好主意?

python - 具有多个时间序列的 PCA 作为具有 sklearn 的一个实例的特征

我想在一个数据集上应用PCA,其中我有20个时间序列作为一个实例的特征。我有大约1000个此类实例,我正在寻找一种降低维度的方法。对于每个实例,我都有一个pandas数据框,例如:importpandasaspdimportnumpyasnpdf=pd.DataFrame(data=np.random.normal(0,1,(300,20)))有没有办法在所有实例上使用sklearn.fit,每个实例都有一组时间序列作为特征空间。我的意思是我可以分别在所有实例上应用sklearn.fit,但我希望所有实例都使用相同的主成分。有办法吗?到目前为止,我唯一不满意的想法是将一个实例的所有这些

python - R、statmodels、sklearn 与逻辑回归分类任务的比较

我在R、pythonstatmodels和sklearn中做了一些逻辑回归实验。虽然R和statmodels给出的结果一致,但与sklearn返回的结果存在一些差异。我想了解为什么这些结果不同。我理解这可能不是木头下使用的相同优化算法。具体来说,我使用标准的Default数据集(在ISLbook中使用)。以下Python代码将数据读入数据框Default。importpandasaspd#dataisavailablehereDefault=pd.read_csv('https://d1pqsl2386xqi9.cloudfront.net/notebooks/Default.csv'

python - 将 Pandas 'categorical' dtype 与 sklearn 一起使用

sklearn是否支持直接在拟合模型中使用Panda的Categorical数据类型?据我所知,sklearn不支持这种数据类型,这是不幸的,因为分类数据类型既编码分类数据又包含数据的映射方案。此外,分类编码纯粹是一个数据处理/处理问题,因此由Pandas处理似乎更自然。注意我知道有几种方法可以在Pandas和sklearn中对分类变量进行编码——这不是我要问的。 最佳答案 来自issue-tracker的交叉发布:我认为这些至少是两个独立的问题:1.sklearn可以/将支持以分类特征作为输入的pandas数据帧2.sklearn