SciKit-Learn_草庐IT

python - 随机森林分类器分割错误

一直在尝试在包含20个左右标签的约50,000个条目的数据集上运行RF分类器，我认为这应该没问题，但在尝试拟合时我不断遇到以下问题......ExceptionMemoryError:MemoryError()in'sklearn.tree._tree.Tree._resize'ignoredSegmentationfault(coredumped)数据集已通过TfidfVectorizer，然后通过n=100的TruncatedSVD进行降维。RandomForestClassifier以n_jobs=1和n_estimators=10运行，试图找到它可以工作的最小点。该系统使用4G

python 随机 section code 跟踪器 scikit-learn random-forest

python - ImportError:无法从 sklearn.utils.validation 导入名称 check_array

当我从模块sklearn.utils.validation导入函数check_array时，出现导入错误(ImportError:cannotimportnamecheck_array).选项卡完成得到了check_arrays，但我想知道validation.py(sourcecodeonGithub)中只存在一个名为check_array的函数。此外，在scikit-learn/sklearn/cluster/spectral.py中实现的谱聚类算法还使用了from..utils.validationimportcheck_array，而不是check_arrays。我对此很困惑，

ImportError check_array code section python scikit-learn

python - 了解 scikit 学习预测的随机森林内存要求

我有一组2000棵经过训练的随机回归树(来自scikitlearn的随机森林回归器，n_estimators=1)。使用multiprocessing和共享内存在大型数据集(~100000*700000=70GB@8位)上并行训练树(50个核心)，效果非常好。请注意，我没有使用RF的内置多核支持，因为我事先进行了功能选择。问题:并行测试大型矩阵(~20000*700000)时，我总是内存不足(我可以访问具有500GBRAM的服务器)。我的策略是将测试矩阵保存在内存中并在所有进程之间共享。根据statementbyoneofthedevelopers测试的内存要求是2*n_jobs*si

python scikit code test rows memory-management scikit-learn random-forest python-multiprocessing

python - 如何使用 scikit-learn 获取每个 k-means 集群的惯性值？

我正在使用scikitlearn进行聚类(k-means)。当我使用详细选项运行代码时，它会打印每次迭代的惯性。算法完成后，我想获得每个形成的簇的惯性(k个惯性值)。我怎样才能做到这一点？最佳答案我设法使用fit_transform方法获取该信息，他们获取每个样本与其簇之间的距离。model=cluster.MiniBatchKMeans(n_clusters=n)distances=model.fit_transform(trainSamples)variance=0i=0forlabelinmodel.labels_:var

scikit-learn k-means section variance fit_transform python machine-learning scipy

python - 在 scikit-learn 和/或 pandas 中重新采样

Pandas或Scikit-learn中是否有根据指定策略进行重采样的内置函数？我想根据分类变量对数据重新采样。例如，如果我的数据有75%的男性和25%的女性，但我想用50%的男性和50%的女性来训练我的模型。(我还希望能够概括为不是50/50的情况)我需要的是根据指定比例对我的数据重新采样的东西。最佳答案我在下面尝试了一个函数来做我想做的事。希望这对其他人有帮助。X和y分别假定为PandasDataFrame和Series。defresample(X,y,sample_type=None,sample_size=None,cl

scikit-learn python sample sample_size size pandas

python - 在 sklearn 中使用 silhouette 分数进行高效的 k-means 评估

我正在对约100万个项目(每个表示为一个约100个特征向量)运行k-means聚类。我已经为各种k运行了聚类，现在想用sklearn中实现的轮廓分数来评估不同的结果。尝试在没有采样的情况下运行它似乎不可行并且需要很长时间，所以我假设我需要使用采样，即:metrics.silhouette_score(feature_matrix,cluster_labels,metric='euclidean',sample_size=???)不过，我不太清楚什么是合适的抽样方法。给定矩阵的大小，是否有关于使用多大样本的经验法则？是取我的分析机可以处理的最大样本更好，还是取更多较小样本的平均值更好？我

silhouette k-means section 的 strong python scikit-learn cluster-analysis

python - pycharm 代码自动完成仅在 python 控制台中有效，但在 python 文件中无效

我正在使用pycharmIDE和几个库，例如scikit-learn和pandas。出于某种原因，如果我创建一个新的python文件并执行:importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplotpd.#noautocompletehere在我输入pd.后自动完成似乎不起作用。我一无所获。但是，如果我在PyCharm中运行python控制台，并执行上面类似的操作，控制台会弹出一个自动完成窗口，显示pd.的所有成员。我如何让自动完成在主python文件上工作？最佳答案

python pycharm section strong pandas autocomplete scikit-learn

python - 为什么 scikit-learn 会导致核心转储？

我尝试在scikit-learn中运行一个简单的线性拟合:fromsklearnimportlinear_modelclf=linear_model.LinearRegression()clf.fit([[0,0],[1,1],[2,2]],[0,1,2])结果我得到:Illegalinstruction(coredumped)有人知道这个问题的原因是什么以及如何解决这个问题吗？附言我使用的是scikit-learn的0.16.1版本。但是我在旧版本中也遇到了这个问题。我是在Ubuntu下做的。已添加今天我尝试了另一个估算器(KernelRidge)，但我得到了相同的错误消息。我认为几

scikit-learn python noreferrer noopener nofollow coredump

python - 如何从 python 中的拟合 scikit 生存模型解释 .predict() 的输出？

我很困惑如何从scikit-survival中的拟合CoxnetSurvivalAnalysis模型解释.predict的输出。我已经通读了笔记本IntrotoSurvivalAnalysisinscikit-survival和API引用，但找不到解释。以下是导致我感到困惑的最小示例:importpandasaspdfromsksurv.datasetsimportload_veterans_lung_cancerfromsksurv.linear_modelimportCoxnetSurvivalAnalysis#loaddatadata_X,data_y=load_veterans

python predict code survival machine-learning survival-analysis

python - 快速信息增益计算

我需要为文本分类的>10k文档中的>100k特征计算信息增益分数。下面的代码工作正常，但完整数据集的速度非常慢-在笔记本电脑上需要一个多小时。数据集是20newsgroup，我正在使用scikit-learn，chi2scikit中提供的功能运行速度非常快。知道如何更快地计算此类数据集的信息增益吗？definformation_gain(x,y):def_entropy(values):counts=np.bincount(values)probs=counts[np.nonzero(counts)]/float(len(values))return-np.sum(probs*np.l

python 快速 feature entropy set performance machine-learning scikit-learn feature-selection