SciKit-Learn

python - 如何使用 XGBoost 获取 Predictions 和使用 Scikit-Learn Wrapper 的 XGBoost 进行匹配？

我是Python中XGBoost的新手，所以如果这里的答案很明显，我深表歉意，但我正在尝试使用panda数据框并在Python中获取XGBoost来给我使用Scikit-Learn包装器时得到的相同预测对于同一个练习。到目前为止，我一直无法这样做。举个例子，这里我使用波士顿数据集，转换为Pandas数据框，训练数据集的前500个观察值，然后预测最后6个。我先用XGBoost做，然后用Scikit-Learn包装器和即使我将模型的参数设置为相同，我也会得到不同的预测。具体来说，数组预测看起来与数组预测2非常不同(请参见下面的代码)。任何帮助将不胜感激!fromsklearnimportd

XGBoost Scikit-Learn 39 train code python

python - 训练数据的拟合变换和测试数据的变换

这个问题在这里已经有了答案:whatisthedifferencebetween'transform'and'fit_transform'insklearn(9个回答)关闭4年前。我无法理解transform()和fit_transform()究竟是如何协同工作的。我在我的训练数据集上调用fit_transform()，然后在我的测试集上调用transform()。但是，如果我在测试集上调用fit_transform()，我会得到不好的结果。谁能给我解释一下这是怎么发生的以及为什么会发生？

训练 python section transform code scikit-learn

python - 如何惩罚假阴性而不是假阳性

从业务角度来看，误报导致的成本(实际成本)是误报的十倍左右。鉴于我的标准二元分类模型(logit、随机森林等)，我如何将其合并到我的模型中？我是否必须更改(权重)损失函数以支持“首选”错误(FP)？如果可以，该怎么做？最佳答案有几种选择:正如评论中所建议的，class_weight应该将损失函数提升到首选类。各种估算器都支持此选项，包括sklearn.linear_model.LogisticRegression,sklearn.svm.SVC,sklearn.ensemble.RandomForestClassifier，和别

阴性 python code sklearn noreferrer machine-learning scikit-learn

Matrix 上的 Python PCA 太大而无法放入内存

我有一个100,000行x27,000列的csv，我正在尝试对其进行PCA以生成100,000行X300列的矩阵。csv有9GB大。这是我目前正在做的事情:fromsklearn.decompositionimportPCAasRandomizedPCAimportcsvimportsysimportnumpyasnpimportpandasaspddataset=sys.argv[1]X=pd.DataFrame.from_csv(dataset)Y=X.pop("Y_Level")X=(X-X.mean())/(X.max()-X.min())Y=list(Y)dimensions

放入 Matrix sklearn import sklearn_pca python pandas machine-learning scikit-learn pca

python - 从 Scikit (Python) 中的管道检索中间特征

我使用的管道与给定的管道非常相似inthisexample:>>>text_clf=Pipeline([('vect',CountVectorizer()),...('tfidf',TfidfTransformer()),...('clf',MultinomialNB()),...])我使用GridSearchCV在参数网格上找到最佳估计器。但是，我想使用CountVectorizer()中的get_feature_names()方法获取训练集的列名称。如果不在管道外实现CountVectorizer()是否可行？最佳答案使用g

python Scikit code 39 section scikit-learn pipeline

python - Scikit-learn:并行化随机梯度下降

我有一个相当大的训练矩阵(超过10亿行，每行两个特征)。有两个类(0和1)。这对于一台机器来说太大了，但幸运的是我有大约200个MPI主机可供我使用。每个都是适度的双核工作站。特征生成已经成功分发。Multiprocessingscikit-learn中的答案建议可以分配SGDClassifier的工作:Youcandistributethedatasetsacrosscores,dopartial_fit,gettheweightvectors,averagethem,distributethemtotheestimators,dopartialfitagain.当我在每个估算器上第

Scikit-learn python estimator intercept average parallel-processing machine-learning mpi

python - sklearn随机森林索引feature_importances_如何做

我在sklearn中使用了RandomForestClassifier来确定数据集中的重要特征。我如何能够返回实际的特征名称(我的变量标记为x1、x2、x3等)而不是它们的相对名称(它告诉我重要的特征是“12”、“22”等)。以下是我目前用于返回重要功能的代码。important_features=[]forx,iinenumerate(rf.feature_importances_):ifi>np.average(rf.feature_importances_):important_features.append(str(x))printimportant_features此外，为了

feature_importances importances code pre important python scikit-learn random-forest feature-selection

python - 我如何使用 sklearn DictVectorizer 对列表进行矢量化

我在sklearn文档网站上找到了下一个示例:>>>measurements=[...{'city':'Dubai','temperature':33.},...{'city':'London','temperature':12.},...{'city':'SanFransisco','temperature':18.},...]>>>fromsklearn.feature_extractionimportDictVectorizer>>>vec=DictVectorizer()>>>vec.fit_transform(measurements).toarray()array([[1.

矢量化 DictVectorizer 39 temperature city python scikit-learn

python - 具有字符串分类值的 OneHotEncoder

我有以下numpy矩阵:M=[['a',5,0.2,''],['a',2,1.3,'as'],['b',1,2.3,'as'],]M=np.array(M)我想对分类值进行编码('a'、'b'、''、'as')。我尝试使用OneHotEncoder对其进行编码.问题是它不适用于字符串变量并生成错误。enc=preprocessing.OneHotEncoder()enc.fit(M)enc.transform(M).toarray()我知道我必须使用categorical_features来显示我要编码的值，我认为通过提供dtype我将能够处理字符串值，但是我不能。那么有没有一种方法可

OneHotEncoder python code section scikit-learn

python - 如何使用机器学习在 python 中根据给定的一组地理数据进行预测？

我正在分析一些地理数据，并试图根据时间和地理位置预测/预测下一次事件的发生。数据顺序如下(附示例数据)TimestampLatitudeLongitudeEvent13307266102.8640097270.64039541"EventA"13311695102.808291270.47394645"EventA"13314940102.8224052270.6308513"EventA"13318949102.8340212870.64103035"EventA"13334397102.8472624270.66790352"EventA"第一步是将其分为100个区域，以降低维度和

python 给定 scikit-learn scikit noreferrer numpy machine-learning forecasting

14 15 161718 19 20