scikit

使用 Scikit-learn 进行拟合时出现 Python MemoryError

我在具有24GB内存的Windows864位系统上运行Python2.7(64位)。在对通常的Sklearn.linear_models.Ridge进行拟合时，代码运行良好。问题:但是，当使用Sklearn.linear_models.RidgeCV(alphas=alphas)进行拟合时，我遇到了显示的MemoryError错误在执行拟合过程的rr.fit(X_train,y_train)行下方。我怎样才能避免这个错误？代码片段deffit(X_train,y_train):alphas=[1e-3,1e-2,1e-1,1e0,1e1]rr=RidgeCV(alphas=alphas

时出 Scikit-learn code 稀疏 self python python-2.7 numpy scipy

python - 在 scikit learn 中组合随机森林模型

我有两个RandomForestClassifier模型，我想将它们组合成一个元模型。他们都使用相似但不同的数据进行训练。我该怎么做？rf1#thisismyfirstfittedRandomForestClassifierobject,with250treesrf2#thisismysecondfittedRandomForestClassifierobject,alsowith250trees我想创建big_rf并将所有树组合成一个500棵树模型最佳答案我相信这可以通过修改RandomForestClassifier对象的e

python scikit estimators code RandomForestClassifier python-2.7 scikit-learn classification random-forest

python - 在 Scikit 特征选择后保留特征名称

在对一组数据运行Scikit-Learn的方差阈值后，它删除了几个特征。我觉得我在做一些简单而愚蠢的事情，但我想保留其余功能的名称。以下代码:defVarianceThreshold_selector(data):selector=VarianceThreshold(.5)selector.fit(data)selector=(pd.DataFrame(selector.transform(data)))returnselectorx=VarianceThreshold_selector(data)print(x)更改以下数据(这只是行的一小部分):SurvivedPclassSexA

python Scikit selector code section pandas scikit-learn output feature-selection

python - 如何在 scikit-learn 中使用管道调整自定义内核函数的参数

目前我已经使用def函数成功定义了一个自定义内核函数(预计算内核矩阵)，现在我正在使用GridSearchCV函数来获取最佳参数。因此，在自定义内核函数中，总共有2个参数需要调整(即下例中的gamm和sea_gamma)，而且对于SVR模型，costc参数也必须调整。但直到现在，我只能使用GridSearchCV调整costc参数->请参阅下面的第一部分:示例。我已经搜索了一些类似的解决方案，例如:Isitpossibletotuneparameterswithgridsearchforcustomkernelsinscikit-learn?它说“一种方法是使用Pipeline、SVC

自定何在 train self kernel python scikit-learn svm pipeline grid-search

python - Scikit K 均值聚类性能度量

我正在尝试使用K-means方法进行聚类，但我想衡量聚类的性能。我不是专家，但我渴望了解有关聚类的更多信息。这是我的代码:importpandasaspdfromsklearnimportdatasets#loadingthedatasetiris=datasets.load_iris()df=pd.DataFrame(iris.data)#K-Meansfromsklearnimportclusterk_means=cluster.KMeans(n_clusters=3)k_means.fit(df)#K-meanstrainingy_pred=k_means.predict(df)

python Scikit code prediction section machine-learning scikit-learn cluster-analysis sklearn-pandas

python - scikits学习和nltk : Naive Bayes classifier performance highly different

我正在比较两个朴素贝叶斯分类器:一个fromNLTK还有一个fromscikit-learn.我正在处理多类分类问题(3类:正(1)、负(-1)和中性(0))。在不执行任何特征选择(即使用所有可用特征)的情况下，使用包含70,000个实例的训练数据集(带有噪声标记，实例分布为17%正、4%负和78%中性)，我训练两个分类器，第一个是nltk.NaiveBayesClassifier，第二个是sklearn.naive_bayes.MultinomialNB(fit_prior=True)。训练后，我在30,000个实例的测试集上评估了分类器，得到以下结果:**NLTK'sNaiveBa

performance classifier F-Measure precision Measure python machine-learning nltk scikits scikit-learn

python - scikit 学习中的样本权重和类权重选项有什么区别？

我有类(class)不平衡问题，想使用成本敏感学习来解决这个问题。欠采样和过采样赋予类权重以使用修改后的损失函数问题Scikitlearn有2个选项，称为类权重和样本权重。样本权重实际上是在执行选项2)和类别权重选项1)。选项2)是处理类不平衡的推荐方法。最佳答案这是相似的概念，但使用sample_weights可以强制估计器更加关注某些样本，使用class_weights可以强制估计器关注某些特定类进行学习。sample_weight=0或class_weight=0基本上意味着估计器根本不需要在学习过程中考虑这些样本/类。因

python scikit section class weight machine-learning scikit-learn classification

python - 使用 numpy/scikit 函数保持 pandas 结构

我正在使用来自pandas的出色的read_csv()函数，它给出:In[31]:data=pandas.read_csv("lala.csv",delimiter=",")In[32]:dataOut[32]:Int64Index:12083entries,0to12082Columns:569entries,REGIONCtoSCALEKERdtypes:float64(51),int64(518)但是当我应用来自scikit-learn的函数时，我丢失了有关列的信息:fromsklearnimportpreprocessingpreprocessing.scale(data)给出

python pandas code section numpy scikit-learn

python - 高斯混合模型 : Difference between Spark MLlib and scikit-learn

我正在尝试对数据集样本使用高斯混合模型。我同时使用了MLlib(与pyspark)和scikit-learn，得到了截然不同的结果，scikit-learn一个看起来更逼真。frompyspark.mllib.clusteringimportGaussianMixtureasSparkGaussianMixturefromsklearn.mixtureimportGaussianMixturefrompyspark.mllib.linalgimportVectorsScikit-learn:local=pd.DataFrame([x.asDict()forxindf.sample(0.

scikit-learn Difference code noreferrer model python apache-spark pyspark apache-spark-mllib

python - 你能修复 scikit 学习中分类器的假阴性率吗

我正在使用RandomForestclassifer在scikit中学习两个类的不平衡数据集。与误报相比，我更担心假阴性。是否可以固定假阴性率(比如1%)并要求scikit以某种方式优化假阳性率？如果这个分类器不支持，是否有另一个分类器支持？最佳答案我相信sklearn中类不平衡的问题可以通过使用class_weight参数来部分解决。这个参数要么是一个字典，其中每个类都被分配了一个统一的权重，要么是一个字符串，告诉sklearn如何构建这个字典。例如，将此参数设置为“自动”，将按其频率的倒数对每个类别进行加权。通过为较少出现的

阴性 python section strong scikit-learn

12 13 141516 17 18