草庐IT

$sklearn

全部标签

python - sklearn : Hyperparameter tuning by gradient descent?

有没有办法通过梯度下降在scikit-learn中执行超参数调整?虽然超参数梯度的公式可能难以计算,但通过评估超参数空间中的两个接近点来对超参数梯度进行数值计算应该非常容易。是否有这种方法的现有实现?为什么这种方法是个好主意? 最佳答案 梯度的计算是最少的问题。至少在先进时代automaticdifferentiation软件。(当然,对所有sklearn分类器以通用方式实现这一点并不容易)虽然有些人使用了这种想法,但他们只是针对某些特定且精心制定的问题(例如SVM调优)才这样做。此外,可能有很多假设,因为:为什么这不是一个好主意?

python - 具有多个时间序列的 PCA 作为具有 sklearn 的一个实例的特征

我想在一个数据集上应用PCA,其中我有20个时间序列作为一个实例的特征。我有大约1000个此类实例,我正在寻找一种降低维度的方法。对于每个实例,我都有一个pandas数据框,例如:importpandasaspdimportnumpyasnpdf=pd.DataFrame(data=np.random.normal(0,1,(300,20)))有没有办法在所有实例上使用sklearn.fit,每个实例都有一组时间序列作为特征空间。我的意思是我可以分别在所有实例上应用sklearn.fit,但我希望所有实例都使用相同的主成分。有办法吗?到目前为止,我唯一不满意的想法是将一个实例的所有这些

python - R、statmodels、sklearn 与逻辑回归分类任务的比较

我在R、pythonstatmodels和sklearn中做了一些逻辑回归实验。虽然R和statmodels给出的结果一致,但与sklearn返回的结果存在一些差异。我想了解为什么这些结果不同。我理解这可能不是木头下使用的相同优化算法。具体来说,我使用标准的Default数据集(在ISLbook中使用)。以下Python代码将数据读入数据框Default。importpandasaspd#dataisavailablehereDefault=pd.read_csv('https://d1pqsl2386xqi9.cloudfront.net/notebooks/Default.csv'

python - 将 Pandas 'categorical' dtype 与 sklearn 一起使用

sklearn是否支持直接在拟合模型中使用Panda的Categorical数据类型?据我所知,sklearn不支持这种数据类型,这是不幸的,因为分类数据类型既编码分类数据又包含数据的映射方案。此外,分类编码纯粹是一个数据处理/处理问题,因此由Pandas处理似乎更自然。注意我知道有几种方法可以在Pandas和sklearn中对分类变量进行编码——这不是我要问的。 最佳答案 来自issue-tracker的交叉发布:我认为这些至少是两个独立的问题:1.sklearn可以/将支持以分类特征作为输入的pandas数据帧2.sklearn

python - sklearn 中 score 和 accuracy_score 的区别

sklearn.naive_bayes.GaussianNB()模块中的score()方法和sklearn中的accuracy_score方法有什么区别。指标模块?两者似乎相同。对吗? 最佳答案 一般来说,不同的模型有返回不同指标的评分方法。这是为了允许分类器指定他们认为最适合他们的评分指标(因此,例如,最小二乘回归分类器将有一个score方法返回类似于平方误差之和的东西).在GaussianNB的情况下,文档说它的评分方法:Returnsthemeanaccuracyonthegiventestdataandlabels.accu

python - Sklearn 标签编码多列 pandas 数据框

我尝试在大型pandas数据框中对包含分类数据("is"和“否”)的多个列进行编码。完整的数据框包含400多列,因此我正在寻找一种方法来对所有需要的列进行编码,而不必对它们进行逐一编码。我使用Scikit-learnLabelEncoder对分类数据进行编码。不必对数据帧的第一部分进行编码,但是我正在寻找一种方法来直接对包含分类日期的所有所需列进行编码,而无需拆分和连接数据帧。为了展示我的问题,我首先尝试在数据框的一小部分上解决它。然而,卡在数据拟合和转换的最后部分,并得到一个ValueError:badinputshape(4,3)。我运行的代码:#Createasimpledata

python - sklearn : Turning off warnings

当我使用1列pythonpandasDataFrame(不是Series对象),我收到此警告:/Library/Python/2.7/site-packages/sklearn/preprocessing/label.py:125:DataConversionWarning:Acolumn-vectorywaspassedwhena1darraywasexpected.Pleasechangetheshapeofyto(n_samples,),forexampleusingravel().y=column_or_1d(y,warn=True)我知道我可以很容易地在我的代码中发出这个警告

python - sklearn : how to get coefficients of polynomial features

我知道可以使用以下方法获取多项式特征作为数字:polynomial_features.transform(X)。根据manual,对于二度的特征是:[1,a,b,a^2,ab,b^2]。但是我如何获得高阶特征的描述呢?.get_params()不显示任何功能列表。 最佳答案 顺便说一句,现在有更合适的功能:PolynomialFeatures.get_feature_names.fromsklearn.preprocessingimportPolynomialFeaturesimportpandasaspdimportnumpyas

python - 将 DictVectorizer 与 sklearn DecisionTreeClassifier 结合使用

我尝试用python和sklearn开始决策树。工作方式是这样的:importpandasaspdfromsklearnimporttreeforcolinset(train.columns):iftrain[col].dtype==np.dtype('object'):s=np.unique(train[col].values)mapping=pd.Series([x[0]forxinenumerate(s)],index=s)train_fea=train_fea.join(train[col].map(mapping))else:train_fea=train_fea.join(

python - sklearn.ensemble.RandomForestClassifier 中的邻近度矩阵

我正在尝试使用随机森林在Python中执行聚类。在随机森林的R实现中,您可以设置一个标志来获取邻近矩阵。我似乎无法在随机森林的pythonscikit版本中找到任何类似的东西。有谁知道python版本是否有等效的计算? 最佳答案 我们没有在Scikit-Learn中实现邻近矩阵(目前)。但是,这可以依靠我们的决策树实现中提供的apply函数来完成。也就是说,对于数据集中的所有样本对,迭代森林中的决策树(通过forest.estimators_)并计算它们落在同一片叶子中的次数,即多次apply为配对中的两个样本提供相同的节点ID。希