草庐IT

Desire2Learn

全部标签

python - scikit-learn roc_auc_score() 返回精度值

我正在尝试使用sklearn.metrics.roc_auc_score使用以下方法计算ROC曲线下的面积:roc_auc=sklearn.metrics.roc_auc_score(actual,predicted)其中actual是一个带有真实分类标签的二元向量,predicted是一个带有我的分类器预测的分类标签的二元向量。但是,我得到的roc_auc的值与准确度值(标签被正确预测的样本的比例)完全相似。这不是一次性的事情。我在不同的参数值上尝试我的分类器,每次我都得到相同的结果。我在这里做错了什么? 最佳答案 这是因为您传递

python - 如何使用 scikit-learn 获得优势比和其他相关特征

我正在经历这个oddsratiosinlogisticregressiontutorial,并试图用scikit-learn的逻辑回归模块得到完全相同的结果。使用下面的代码,我可以获得系数和截距,但我找不到找到教程中列出的模型的其他属性的方法,例如log-likelyhood、OddsRatio、Std。Err.,z,P>|z|,[95%Conf.间隔]。如果有人能告诉我如何用sklearn包计算它们,我将不胜感激。importpandasaspdfromsklearn.linear_modelimportLogisticRegressionurl='https://stats.idr

python - Pandas 和 scikit-learn : KeyError: [. ...] 不在索引中

我不明白为什么在运行此代码时会出现错误KeyError:'[135113521353...135001350113502]notinindex':cv=KFold(n_splits=10)fortrain_index,test_indexincv.split(X):f_train_X,f_valid_X=X[train_index],X[test_index]f_train_y,f_valid_y=y[train_index],y[test_index]我使用X(一个Pandas数据框)来拆分Icv.split(X)。X.shapey.shapeOut:(13503,17)Out:(1

python - SciKit Learn、Keras 或 Pytorch 的差异

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭3年前。Improvethisquestion这些库可以完全互换吗?看这里,https://stackshare.io/stackups/keras-vs-pytorch-vs-scikit-learn,似乎主要区别在于底层框架(至少对于PyTorch而言)。

python - 如何在 scikit-learn 中正确地将数字特征与文本(词袋)结合起来?

我正在写一个网页分类器,所以我混合了数字特征,我也想对文本进行分类。我正在使用词袋方法将文本转换为(大)数值向量。代码最终是这样的:fromsklearn.feature_extraction.textimportCountVectorizerfromsklearn.feature_extraction.textimportTfidfTransformerimportnumpyasnpnumerical_features=[[1,0],[1,1],[0,0],[0,1]]corpus=['Thisisthefirstdocument.','Thisisthesecondseconddo

python - 将 Tensorflow 输入管道与 skflow/tf learn 结合使用

我关注了TensorflowReadingData指南以TFRecord的形式获取我的应用程序数据,并在我的输入管道中使用TFRecordReader来读取此数据。我现在正在阅读有关使用skflow/tf.learn的指南构建一个简单的回归器,但我看不到如何通过这些工具使用我的输入数据。在以下代码中,应用程序在调用regressor.fit(..)时失败,出现ValueError:settinganarrayelementwithasequence.。错误:Traceback(mostrecentcalllast):File".../tf.py",line138,inrun()File

python - 回归数据的 Scikit-learn 特征选择

我正在尝试使用Python模块scikit-learn将单变量特征选择方法应用于svmlight格式的回归(即连续值响应值)数据集。我正在使用scikit-learn0.11版。我尝试了两种方法-第一种失败了,第二种对我的玩具数据集有效,但我认为对于真实数据集会产生毫无意义的结果。我希望获得有关可用于为回归数据集选择前N个特征的适当单变量特征选择方法的建议。我要么(a)弄清楚如何使f_regression函数工作,要么(b)听取其他建议。上述两种方式:我尝试使用sklearn.feature_selection.f_regression(X,Y)。失败并显示以下错误消息:“TypeEr

python - 是否可以在 Hadoop 上运行 Python 的 scikit-learn 算法?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion我知道可以在Hadoop上使用python语言。但是可以在Hadoop上使用scikit-learn的机器学习算法吗?如果答案是否定的,是否有一些用于python和Hadoop的机器学习库?感谢您的帮助。

python - 属性错误 : lower not found; using a Pipeline with a CountVectorizer in scikit-learn

我有这样一个语料库:X_train=[['thisisandummyexample']['inrealitythislineisverylong']...['hereisalasttextinthetrainingset']]和一些标签:y_train=[1,5,...,3]我想按如下方式使用Pipeline和GridSearch:pipeline=Pipeline([('vect',CountVectorizer()),('tfidf',TfidfTransformer()),('reg',SGDRegressor())])parameters={'vect__max_df':(0.

python - 无法下载和安装 scikit-learn

我是python的新手。我想使用KMean代码,我想安装scikit-learn或sklearn。我使用这段代码尝试安装这些包:pipinstall-Usklearnpipinstall-Uscikit-learn但是我得到了这个错误:Command/usr/bin/python-c"importsetuptools,tokenize;__file__='/tmp/pip_build_reihaneh/sklearn/setup.py';exec(compile(getattr(tokenize,'open',open)(__file__).read().replace('\r\n',