草庐IT

SciKit-Learn

全部标签

python - pip:从远程 git 存储库中提取更新

我安装了scikit-learn几周前来自GitHub:pipinstallgit+git://github.com/scikit-learn/scikit-learn@master我去了GitHub,从那以后master分支发生了一些变化。如何更新本地安装的scikit-learn?我试过pipinstallscikit-learn--upgrade但我得到了:Requirementalreadyup-to-dateCleaningup... 最佳答案 pip在Python包索引中搜索库。您的版本比那里的最新版本新,所以pip不会

python - pip:从远程 git 存储库中提取更新

我安装了scikit-learn几周前来自GitHub:pipinstallgit+git://github.com/scikit-learn/scikit-learn@master我去了GitHub,从那以后master分支发生了一些变化。如何更新本地安装的scikit-learn?我试过pipinstallscikit-learn--upgrade但我得到了:Requirementalreadyup-to-dateCleaningup... 最佳答案 pip在Python包索引中搜索库。您的版本比那里的最新版本新,所以pip不会

python - scikit-learn DBSCAN 内存使用情况

更新:最后,我选择用于对我的大型数据集进行聚类的解决方案是Anony-Mousse下面建议的解决方案。也就是说,使用ELKI的DBSCAN实现我的聚类而不是scikit-learn的。它可以从命令行运行,并通过适当的索引,在几个小时内执行此任务。使用GUI和小样本数据集来制定您想要使用的选项,然后前往城镇。值得研究。任何人,请继续阅读我最初的问题的描述和一些有趣的讨论。我有一个包含约250万个样本的数据集,每个样本包含35个我正在尝试聚类的特征(浮点值)。我一直在尝试使用scikit-learn的DBSCAN实现来做到这一点,使用曼哈顿距离度量和从数据中抽取的一些小随机样本估计的eps

python - scikit-learn DBSCAN 内存使用情况

更新:最后,我选择用于对我的大型数据集进行聚类的解决方案是Anony-Mousse下面建议的解决方案。也就是说,使用ELKI的DBSCAN实现我的聚类而不是scikit-learn的。它可以从命令行运行,并通过适当的索引,在几个小时内执行此任务。使用GUI和小样本数据集来制定您想要使用的选项,然后前往城镇。值得研究。任何人,请继续阅读我最初的问题的描述和一些有趣的讨论。我有一个包含约250万个样本的数据集,每个样本包含35个我正在尝试聚类的特征(浮点值)。我一直在尝试使用scikit-learn的DBSCAN实现来做到这一点,使用曼哈顿距离度量和从数据中抽取的一些小随机样本估计的eps

python - 如何使用 Python timeit 模块捕获返回值?

我正在使用sklearn在for循环中运行几种机器学习算法,并想看看每个算法需要多长时间。问题是我还需要返回一个值,并且不想多次运行它,因为每个算法都需要很长时间。有没有一种方法可以使用python的timeit模块或具有类似函数的类似模块来捕获返回值'clf'...defRandomForest(train_input,train_output):clf=ensemble.RandomForestClassifier(n_estimators=10)clf.fit(train_input,train_output)returnclf当我这样调用函数时t=Timer(lambda:Ra

python - 如何使用 Python timeit 模块捕获返回值?

我正在使用sklearn在for循环中运行几种机器学习算法,并想看看每个算法需要多长时间。问题是我还需要返回一个值,并且不想多次运行它,因为每个算法都需要很长时间。有没有一种方法可以使用python的timeit模块或具有类似函数的类似模块来捕获返回值'clf'...defRandomForest(train_input,train_output):clf=ensemble.RandomForestClassifier(n_estimators=10)clf.fit(train_input,train_output)returnclf当我这样调用函数时t=Timer(lambda:Ra

python - 非整数类标签 Scikit-Learn

scikit-learn的快速SVM问题。当你训练一个SVM时,它类似于fromsklearnimportsvms=svm.SVC()s.fit(training_data,labels)有没有办法让labels成为非数字类型的列表?例如,如果我想将向量分类为“猫”或“狗”,而不必使用某种外部查找表将“猫”和“狗”编码为1和2。当我尝试只传递一个字符串列表时,我得到...ValueError:float()的无效文字:cat所以,看起来只是在labels中插入字符串会起作用。有什么想法吗? 最佳答案 直接将字符串作为类传递是我的待办

python - 非整数类标签 Scikit-Learn

scikit-learn的快速SVM问题。当你训练一个SVM时,它类似于fromsklearnimportsvms=svm.SVC()s.fit(training_data,labels)有没有办法让labels成为非数字类型的列表?例如,如果我想将向量分类为“猫”或“狗”,而不必使用某种外部查找表将“猫”和“狗”编码为1和2。当我尝试只传递一个字符串列表时,我得到...ValueError:float()的无效文字:cat所以,看起来只是在labels中插入字符串会起作用。有什么想法吗? 最佳答案 直接将字符串作为类传递是我的待办

python - Pandas 中的分层抽样

我看过Sklearnstratifiedsamplingdocs以及pandasdocs还有StratifiedsamplesfromPandas和sklearnstratifiedsamplingbasedonacolumn但他们没有解决这个问题。我正在寻找一种快速的pandas/sklearn/numpy方法来从数据集中生成大小为n的分层样本。但是,对于小于指定采样数的行,它应该取所有条目。具体例子:谢谢!:) 最佳答案 在将数字传递给样本时使用min。考虑数据框dfdf=pd.DataFrame(dict(A=[1,1,1,2

python - Pandas 中的分层抽样

我看过Sklearnstratifiedsamplingdocs以及pandasdocs还有StratifiedsamplesfromPandas和sklearnstratifiedsamplingbasedonacolumn但他们没有解决这个问题。我正在寻找一种快速的pandas/sklearn/numpy方法来从数据集中生成大小为n的分层样本。但是,对于小于指定采样数的行,它应该取所有条目。具体例子:谢谢!:) 最佳答案 在将数字传递给样本时使用min。考虑数据框dfdf=pd.DataFrame(dict(A=[1,1,1,2