sklearn_pca_草庐IT

python - 使用 Scikit-learn (sklearn) 估算整个 DataFrame(所有列)而不迭代列

我想估算pandasDataFrame上的所有列...我能想到的唯一方法是逐列如下所示...有没有一种操作可以让我在不遍历列的情况下估算整个DataFrame？#!/usr/bin/pythonfromsklearn.preprocessingimportImputerimportnumpyasnpimportpandasaspd#Imputerfill_NaN=Imputer(missing_values=np.nan,strategy='mean',axis=1)#Model1DF=pd.DataFrame([[0,1,np.nan],[2,np.nan,3],[np.nan,2,

估算 Scikit-learn section imputed code python machine-learning dataframe

python - 引发 LinAlgError ("SVD did not converge") LinAlgError : SVD did not converge in matplotlib pca determination

代码:importnumpyfrommatplotlib.mlabimportPCAfile_name="store1_pca_matrix.txt"ori_data=numpy.loadtxt(file_name,dtype='float',comments='#',delimiter=None,converters=None,skiprows=0,usecols=None,unpack=False,ndmin=0)result=PCA(ori_data)这是我的代码。虽然我的输入矩阵没有nan和inf，但我确实得到了下面所述的错误。raiseLinAlgError("SVDdidn

LinAlgError converge section code python matplotlib pca

python - PyMC3 贝叶斯线性回归预测与 sklearn.datasets

我一直在尝试使用带有REALDATA的PyMC3实现贝叶斯线性回归模型(即不是来自线性函数+高斯噪声)来自sklearn.datasets中的数据集。我选择了形状为(442,10)的属性数量最少的回归数据集(即load_diabetes())；即442个样本和10个属性。我相信我的模型工作正常，后验看起来足够好，可以尝试和预测以弄清楚这些东西是如何工作的，但是......我意识到我不知道如何使用这些贝叶斯模型进行预测!我试图避免使用glm和patsy表示法，因为我很难理解使用它时实际发生了什么。我尝试了以下操作:Generatingpredictionsfrominferredpara

贝叶 datasets code noreferrer model python statistics probability bayesian pymc3

python - PCA 用于分类特征？

据我了解，我认为PCA只能针对连续特征执行。但是，在尝试了解onehot编码和标签编码之间的区别时，通过以下链接中的帖子:WhentouseOneHotEncodingvsLabelEncodervsDictVectorizor?它指出，一个热编码后跟PCA是一种非常好的方法，这基本上意味着PCA应用于分类特征。因此感到困惑，请同样建议我。最佳答案我不同意其他人。虽然您可以在二进制数据上使用PCA(例如一次性编码数据)，但这并不意味着它是一件好事，或者它会很好地工作。PCA是为连续变量设计的。它试图最小化方差(=平方偏差)。当你

python PCA section strong machine-learning scikit-learn data-mining

python - 将 sklearn 的 GridSearchCV 与管道一起使用，只需预处理一次

我正在使用sickit-learn来调整模型的超参数。我正在使用管道将预处理与估计器链接起来。我的问题的一个简单版本如下所示:importnumpyasnpfromsklearn.model_selectionimportGridSearchCVfromsklearn.pipelineimportmake_pipelinefromsklearn.preprocessingimportStandardScalerfromsklearn.linear_modelimportLogisticRegressiongrid=GridSearchCV(make_pipeline(StandardS

GridSearchCV 只需 code StandardScaler python numpy machine-learning scikit-learn grid-search

python - 在 virtualenv : installed sklearn module not available 中运行 Jupyter notebook

我已经安装了一个创建的virtualenvmachinelearn并在那个环境中安装了一些python模块(pandas、scipy和sklearn)。当我运行jupyternotebook时，我可以在我的笔记本中导入pandas和scipy-但是，当我尝试导入sklearn时，我收到以下错误消息:importsklearn---------------------------------------------------------------------------ImportErrorTraceback(mostrecentcalllast)in()---->1import

中运 virtualenv code strong python scikit-learn jupyter-notebook

python - 没有正则化的sklearn LogisticRegression

sklearn中的逻辑回归类带有L1和L2正则化。如何关闭正则化以获得“原始”逻辑拟合，例如Matlab中的glmfit？我想我可以设置C=largenumber但我不认为这是明智的。更多详情参见文档http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression 最佳答案是的，选择尽可能大的数字。在正则化中，代价函数包含一个正则化

LogisticRegression sklearn section code python scikit-learn regression

python - sklearn train_test_split;保留训练集中列中的唯一值

有没有办法使用sklearn.model_selection.train_test_split保留训练集中特定列的所有唯一值。让我举个例子。我知道的最常见的矩阵分解问题是预测用户在NetflixChallenge中所说的电影评分。或Movielens数据集。现在这个问题并不真正围绕任何单一的矩阵分解方法，但在可能的范围内，有一个小组将只对已知的用户和项目组合进行预测。例如，在Movielens100k中，我们有943个独立用户和1682个独立电影。如果我们使用train_test_split即使train_size比率很高(比如0.9)，唯一用户和电影的数量也不会相同。这带来了一个问题

train_test_split 训练 code train python pandas numpy scikit-learn matrix-factorization

python - ModuleNotFoundError : No module named 'sklearn'

我想导入sklearn但显然没有模块:ModuleNotFoundError:Nomodulenamed'sklearn'我正在使用Anaconda和Python3.6.1;我到处检查了，但仍然找不到答案。当我使用命令时:condainstallscikit-learn这不应该只是工作吗？anaconda在哪里安装包？我正在检查我的python库中的框架，并且没有关于sklearn只有numpy和scipy的内容。请帮忙，我不熟悉使用python包，尤其是通过anaconda。最佳答案您可以只使用pip来安装包，即使您使用的是a

ModuleNotFoundError amp code section sklearn python scikit-learn anaconda package conda

python - 使用 scikit-learn PCA 找到具有最高方差的维度

我需要使用pca来识别某组数据中方差最大的维度。我正在使用scikit-learn的pca来执行此操作，但我无法从pca方法的输出中确定我的数据中方差最大的组件是什么。请记住，我不想消除这些维度，只是识别它们。我的数据被组织成一个包含150行数据的矩阵，每行有4个维度。我的做法如下:pca=sklearn.decomposition.PCA()pca.fit(data_matrix)当我打印pca.explained_variance_ratio_时，它会输出从最高到最低排序的方差比数组，但它没有告诉我它们对应的数据中的哪个维度(我试过改变矩阵上列的顺序，得到的方差比数组是相同的)。打

scikit-learn python section pca scikit variance