草庐IT

SciKit-Learn

全部标签

python - 使用 sklearn StandardScaler 缩放的数据平均值不为零

我有以下代码importpandasaspdfromsklearn.preprocessingimportStandardScalerimportnumpyasnpdf.columns=['sepal_len','sepal_wid','petal_len','petal_wid','class']df.dropna(how="all",inplace=True)#dropstheemptylineatfile-endX=df.ix[:,0:4].valuesy=df.ix[:,4].values接下来我缩放数据并获取平均值:X_std=StandardScaler().fit_tra

python - SGDClassifier 与 LogisticRegression 与 scikit-learn 库中的 sgd 求解器

scikit-learn库具有以下看起来相似的分类器:逻辑回归分类器有不同的求解器,其中之一是'sgd'http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression它还有一个不同的分类器“SGDClassifier”和损失对于逻辑回归,参数可以称为“log”。http://scikit-learn.org/stable/modules/generated/sklearn.linear

python - 用于降维的 Scikit-learn 主成分分析 (PCA)

我想进行降维和数据集成的主成分分析。我有3个特征(变量)和5个样本,如下所示。我想通过转换它们(计算第一台PC)将它们集成到一维(1个特征)输出中。我想使用转换后的数据进行进一步的统计分析,因为我相信它显示了3个输入特征的“主要”特征。我首先使用scikit-learn使用python编写了一个测试代码,如下所示。这是简单的情况,即3个特征的值都相等。换句话说,我对三个相同的向量[0,1,2,1,0]应用了PCA。代码importnumpyasnpfromsklearn.decompositionimportPCApca=PCA(n_components=1)samples=np.ar

python - Sklearn 自定义转换器 : difference between using FunctionTransformer and subclassing TransformerMixin

为了进行适当的CV,建议使用管道,以便可以将相同的转换应用于CV中的每个折叠。我可以通过使用sklearn.preprocessing.FunctionTrasformer或通过subclassingsklearn.base.TransformerMixin来定义自定义转换。推荐的方法是哪一种?为什么? 最佳答案 这完全取决于您,两者或多或少会达到相同的结果,只是您编写代码的方式不同。例如,在使用sklearn.preprocessing.FunctionTransformer时,您可以简单地定义要使用的函数并像这样直接调用它(co

python - ImportError : No module named sklearn. 数据集

操作系统:macos优胜美地python:2.7.6--64位安装:numpy、scipy、matplotlib、Nose我收到以下错误。>>>fromsklearn.datasetsimportload_irisTraceback(mostrecentcalllast):File"",line1,inImportError:Nomodulenamedsklearn.datasets$pipinstall--user--install-option="--prefix="-Uscikit-learnRequirementalreadyup-to-date:scikit-learnin/

python - python 中二进制单热(one-of-K)编码的问题

二进制单热(也称为one-of-K)编码在于为分类变量的每个不同值制作一个二进制列。例如,如果一个颜色列(分类变量)采用值“红色”、“蓝色”、“黄色”和“未知”,则二进制单热编码会将颜色列替换为二进制列“颜色=”红色”、“颜色=蓝色”和“颜色=黄色”。我从pandas数据框中的数据开始,我想使用这些数据来训练带有scikit-learn的模型。我知道两种进行二进制单热编码的方法,但没有一种让我满意。Pandas和get_dummies在数据框的分类列中。就原始数据框包含可用的所有数据而言,此方法似乎非常出色。也就是说,您在将数据拆分为训练、验证和测试集之前进行一次性编码。但是,如果数据

python - sklearn : How to reset a Regressor or classifier object in sknn

我定义了一个回归量如下:nn1=Regressor(layers=[Layer("Rectifier",units=150),Layer("Rectifier",units=100),Layer("Linear")],regularize="L2",#dropout_rate=0.25,learning_rate=0.01,valid_size=0.1,learning_rule="adagrad",verbose=False,weight_decay=0.00030,n_stable=10,f_stable=0.00010,n_iter=200)我在k折交叉验证中使用这个回归器。为了

python - scikit-learn 中的 10*10 折交叉验证?

是classsklearn.cross_validation.ShuffleSplit(n,n_iterations=10,test_fraction=0.10000000000000001,indices=True,random_state=None)scikit-learn中10*10foldCV的正确方法?(通过将random_state更改为10个不同的数字)因为我没有在StratifiedK-Fold或K-Fold中找到任何random_state参数并且与K分开-折叠对于相同的数据总是相同的。如果ShuffleSplit是正确的,一个问题是它被提及了Note:contrar

python - 将 scikit-learn TfIdf 与 gensim LDA 结合使用

我在scikit中使用了各种版本的TFIDF来学习建模一些文本数据。vectorizer=TfidfVectorizer(min_df=1,stop_words='english')结果数据X的格式如下:'withxyzstoredelementsinCompressedSparseRowformat>我想尝试使用LDA来降低稀疏矩阵的维数。有没有一种简单的方法可以将NumPy稀疏矩阵X馈送到gensimLDA模型中?lda=models.ldamodel.LdaModel(corpus=corpus,id2word=dictionary,num_topics=100)我可以忽略sci

python - 有没有办法在决策树的每个叶子下获取样本?

我使用数据集训练了决策树。现在我想看看哪些样本落在树的哪片叶子下。从这里我想要红色圆圈的样本。我正在使用Python的Sklearn决策树实现。 最佳答案 如果你只想要每个样本的叶子,你可以使用clf.apply(iris.data)array([1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,14,5,