scikits-learn_草庐IT

python - 如何将参数仅传递给 scikit 学习中管道对象的一部分？

我需要将参数sample_weight传递到我的RandomForestClassifier，如下所示:X=np.array([[2.0,2.0,1.0,0.0,1.0,3.0,3.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,5.0,3.0,2.0,'0'],[15.0,2.0,5.0,5.0,0.466666666667,4.0,3.0,2.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,7.0,14.0,

传递 python 0.0 code 1.0 pandas scikit-learn pipeline

python - scikit-learn 时间序列数据的交叉验证自定义拆分

我想使用scikit-learn的GridSearchCV确定随机森林模型的一些超参数。我的数据是时间相关的，看起来像importpandasaspdtrain=pd.DataFrame({'date':pd.DatetimeIndex(['2012-1-1','2012-9-30','2013-4-3','2014-8-16','2015-3-20','2015-6-30']),'feature1':[1.2,3.3,2.7,4.0,8.2,6.5],'feature2':[4,4,10,3,10,9],'target':[1,2,1,3,2,2]})>>>traindatefeat

自定 scikit-learn code section train python machine-learning

python - 如何在scikit learn中进行欠采样？

我们有一个视网膜数据集，其中患病眼睛信息占信息的70%，而未患病眼睛占剩余的30%。我们想要一个数据集，其中患病和未患病样本的数量应该相等。是否有任何可用的功能可以帮助我们做同样的事情？最佳答案我会选择用PandasDataFrame来做到这一点和numpy.random.choice.通过这种方式，很容易进行随机抽样以产生大小相同的数据集。一个例子:importpandasaspdimportnumpyasnpdata=pd.DataFrame(np.random.randn(7,4))data['Healthy']=[1,1

中进何在 section random code python python-2.7 dataset scikit-learn sampling

python - 使用 scikit-learn 实现 skip gram？

有什么方法可以在scikit-learn库中实现skip-gram吗？我已经手动生成了一个包含n-skip-gram的列表，并将其作为CountVectorizer()方法的词汇表传递给skipgrams。不幸的是，它的预测性能很差:准确率只有63%。但是，我使用默认代码中的ngram_range(min,max)在CountVectorizer()上获得了77-80%的准确率。有没有更好的方法在scikitlearn中实现skip-grams？这是我的部分代码:corpus=GetCorpus()#Thisonegettextfromfileasalistvocabulary=lis

scikit-learn python code CountVectorizer section machine-learning

python - 如何使用 PCA 和 scikit-learn 进行标准化

让我保持简短。基本上我想知道的是:我应该这样做吗，pca.fit(normalize(x))new=pca.transform(normalize(x))或者这个pca.fit(normalize(x))new=pca.transform(x)我知道我们应该在使用PCA之前对我们的数据进行归一化，但是上面哪一个过程对于sklearn是正确的？最佳答案通常，您会希望使用第一个选项。您的规范化将您的数据放置在PCA看到的新空间中，其转换基本上期望数据位于同一空间中。Scikit-learn提供的工具可通过在管道中串联估算器来透明且方

scikit-learn python code section StandardScaler

python - 如何为不同类别的 scikit-learn 分类器获取最多信息的特征？

NLTK包提供了一种方法show_most_informative_features()来查找这两个类最重要的特征，输出如下:contains(outstanding)=Truepos:neg=11.1:1.0contains(seagal)=Trueneg:pos=7.7:1.0contains(wonderfully)=Truepos:neg=6.8:1.0contains(damon)=Truepos:neg=5.9:1.0contains(wasted)=Trueneg:pos=5.8:1.0正如这个问题中的回答Howtogetmostinformativefeaturesfo

何为 scikit-learn 4.86368088 86368088 5.55682806 python machine-learning nltk

python - 在 scikit learn KNeighborsClassifier 中使用余弦距离

是否可以将1-余弦相似度与scikitlearn的KNeighborsClassifier一起使用？This回答说不，但是在documentation上对于KNeighborsClassifier，它表示DistanceMetrics中提到的指标可用。距离度量不包括明确的余弦距离，可能是因为它不是真正的距离，但据说可以将函数输入到度量中。我尝试将scikit学习线性内核输入KNeighborsClassifier，但它给我一个错误，该函数需要两个数组作为参数。还有其他人试过这个吗？最佳答案余弦相似度一般定义为xTy/(||x||

KNeighborsClassifier python code section machine-learning scikit-learn knn

python - 如何提高 Scikit python 中逻辑回归模型的准确性？

我正在尝试使用gre、gpa和ranks等预测变量来预测admit变量。但预测精度非常低(0.66)。下面给出了数据集。https://gist.github.com/abyalias/3de80ab7fb93dcecc565cee21bd9501a请在下面找到代码:In[73]:data.head(20)Out[73]:admitgregparank_2rank_3rank_4003803.610.01.00.0116603.670.01.00.0218004.000.00.00.0316403.190.00.01.0405202.930.00.01.0517603.001.00.0

python Scikit noreferrer scikit-learn noopener machine-learning regression logistic-regression

python - 使用 python setup.py egg_info 时安装 scikits.audiolab 时出错

我正在尝试使用pip工具安装scikits.audiolab。Pip似乎从scikits.audiolab源目录中运行命令pythonsetup.pyegg_info。当它这样做时，我得到这个错误:Andrews-MacBook-Pro-2:scikits.audiolab-0.11.0andrewhannigan$pipinstallscikits.audiolabCollectingscikits.audiolabUsingcachedscikits.audiolab-0.11.0.tar.gzCompleteoutputfromcommandpythonsetup.pyegg_i

时出 python code setup audiolab pip scikits

python - 将结构化数组转换为 numpy 数组以用于 Scikit-Learn

我很难将使用np.genfromtxt从CSV加载的结构化数组转换为np.array以使数据适合Scikit-Learn估算器。问题是在某些时候会发生从结构化数组到常规数组的强制转换，导致ValueError:can'tcastfromstructuretonon-structure。很长一段时间以来，我一直使用.view来执行转换，但这导致了NumPy的许多弃用警告。代码如下:importnumpyasnpfromsklearn.ensembleimportGradientBoostingClassifierdata=np.genfromtxt(path,dtype=float,de

结构化 Scikit-Learn code 39 section python arrays numpy