草庐IT

scikit-bio

全部标签

python - 使用 scikit-learn 实现 skip gram?

有什么方法可以在scikit-learn库中实现skip-gram吗?我已经手动生成了一个包含n-skip-gram的列表,并将其作为CountVectorizer()方法的词汇表传递给skipgrams。不幸的是,它的预测性能很差:准确率只有63%。但是,我使用默认代码中的ngram_range(min,max)在CountVectorizer()上获得了77-80%的准确率。有没有更好的方法在scikitlearn中实现skip-grams?这是我的部分代码:corpus=GetCorpus()#Thisonegettextfromfileasalistvocabulary=lis

python - 如何使用 PCA 和 scikit-learn 进行标准化

让我保持简短。基本上我想知道的是:我应该这样做吗,pca.fit(normalize(x))new=pca.transform(normalize(x))或者这个pca.fit(normalize(x))new=pca.transform(x)我知道我们应该在使用PCA之前对我们的数据进行归一化,但是上面哪一个过程对于sklearn是正确的? 最佳答案 通常,您会希望使用第一个选项。您的规范化将您的数据放置在PCA看到的新空间中,其转换基本上期望数据位于同一空间中。Scikit-learn提供的工具可通过在管道中串联估算器来透明且方

python - 如何为不同类别的 scikit-learn 分类器获取最多信息的特征?

NLTK包提供了一种方法show_most_informative_features()来查找这两个类最重要的特征,输出如下:contains(outstanding)=Truepos:neg=11.1:1.0contains(seagal)=Trueneg:pos=7.7:1.0contains(wonderfully)=Truepos:neg=6.8:1.0contains(damon)=Truepos:neg=5.9:1.0contains(wasted)=Trueneg:pos=5.8:1.0正如这个问题中的回答Howtogetmostinformativefeaturesfo

python - 在 scikit learn KNeighborsClassifier 中使用余弦距离

是否可以将1-余弦相似度与scikitlearn的KNeighborsClassifier一起使用?This回答说不,但是在documentation上对于KNeighborsClassifier,它表示DistanceMetrics中提到的指标可用。距离度量不包括明确的余弦距离,可能是因为它不是真正的距离,但据说可以将函数输入到度量中。我尝试将scikit学习线性内核输入KNeighborsClassifier,但它给我一个错误,该函数需要两个数组作为参数。还有其他人试过这个吗? 最佳答案 余弦相似度一般定义为xTy/(||x||

python - 如何提高 Scikit python 中逻辑回归模型的准确性?

我正在尝试使用gre、gpa和ranks等预测变量来预测admit变量。但预测精度非常低(0.66)。下面给出了数据集。https://gist.github.com/abyalias/3de80ab7fb93dcecc565cee21bd9501a请在下面找到代码:In[73]:data.head(20)Out[73]:admitgregparank_2rank_3rank_4003803.610.01.00.0116603.670.01.00.0218004.000.00.00.0316403.190.00.01.0405202.930.00.01.0517603.001.00.0

python - 使用 python setup.py egg_info 时安装 scikits.audiolab 时出错

我正在尝试使用pip工具安装scikits.audiolab。Pip似乎从scikits.audiolab源目录中运行命令pythonsetup.pyegg_info。当它这样做时,我得到这个错误:Andrews-MacBook-Pro-2:scikits.audiolab-0.11.0andrewhannigan$pipinstallscikits.audiolabCollectingscikits.audiolabUsingcachedscikits.audiolab-0.11.0.tar.gzCompleteoutputfromcommandpythonsetup.pyegg_i

python - 将结构化数组转换为 numpy 数组以用于 Scikit-Learn

我很难将使用np.genfromtxt从CSV加载的结构化数组转换为np.array以使数据适合Scikit-Learn估算器。问题是在某些时候会发生从结构化数组到常规数组的强制转换,导致ValueError:can'tcastfromstructuretonon-structure。很长一段时间以来,我一直使用.view来执行转换,但这导致了NumPy的许多弃用警告。代码如下:importnumpyasnpfromsklearn.ensembleimportGradientBoostingClassifierdata=np.genfromtxt(path,dtype=float,de

python - 如何从 Scikit-Learn 中的详细输出估计 GridSearchCV 的进度?

现在我正在运行一个非常激进的网格搜索。我有n=135samples我正在运行23folds使用自定义交叉验证训练/测试列表。我有我的verbose=2.下面是我运行的:param_test={"loss":["deviance"],'learning_rate':[0.01,0.025,0.05,0.075,0.1,0.15,0.2],"min_samples_split":np.linspace(0.1,0.5,12),"min_samples_leaf":np.linspace(0.1,0.5,12),"max_depth":[3,5,8],"max_features":["log

python - 在 scikit learn 中保存并重用 TfidfVectorizer

我在scikit中使用TfidfVectorizer学习从文本数据创建矩阵。现在我需要保存这个对象以便以后重用。我尝试使用pickle,但出现以下错误。loc=open('vectorizer.obj','w')pickle.dump(self.vectorizer,loc)***TypeError:can'tpickleinstancemethodobjects我尝试在sklearn.externals中使用joblib,这再次给出了类似的错误。有什么方法可以保存这个对象以便我以后可以重用它吗?这是我的完整对象:classchangeToMatrix(object):def__ini

python - 使用 scikit-learn 并行生成随机森林

主要问题:如何在python和scikit-learn中组合不同的随机森林?我目前正在使用R中的randomForest包来使用弹性映射减少生成随机森林对象。这是为了解决分类问题。由于我的输入数据太大,一台机器的内存无法容纳,我将数据采样成较小的数据集,并生成包含较小树集的随机森林对象。然后,我使用修改后的组合函数将不同的树组合在一起,以创建一个新的随机森林对象。这个随机森林对象包含特征重要性和最终的树集。这不包括树的oob错误或投票。虽然这在R中运行良好,但我想使用scikit-learn在Python中做同样的事情。我可以创建不同的随机森林对象,但我没有办法将它们组合在一起形成一个