草庐IT

SciKit-Learn

全部标签

python - 我可以在 scikit-learn 中使用 CountVectorizer 来计算未用于提取标记的文档的频率吗?

我一直在使用scikit-learn中的CountVectorizer类。我了解,如果以如下所示的方式使用,最终输出将由一个包含特征计数或标记的数组组成。这些标记是从一组关键字中提取的,即tags=["python,tools","linux,tools,ubuntu","distributedsystems,linux,networking,tools",]下一步是:fromsklearn.feature_extraction.textimportCountVectorizervec=CountVectorizer(tokenizer=tokenize)data=vec.fit_tr

python - Scikit-learn 平衡子采样

我正在尝试为我的大型不平衡数据集创建N个平衡随机子样本。有没有办法简单地使用scikit-learn/pandas来做到这一点,还是我必须自己实现它?任何指向执行此操作的代码的指针?这些子样本应该是随机的,并且可以重叠,因为我将每个子样本提供给一个非常大的分类器集合中的单独分类器。在Weka中有一个名为spreadsubsample的工具,在sklearn中是否有等效的工具?http://wiki.pentaho.com/display/DATAMINING/SpreadSubsample(我知道权重,但这不是我想要的。) 最佳答案

python - 使用 scikit-learn 在朴素贝叶斯分类器中混合分类和连续数据

我在Python中使用scikit-learn开发一种分类算法来预测某些客户的性别。其中,我想使用朴素贝叶斯分类器,但我的问题是我混合了分类数据(例如:“在线注册”、“接受电子邮件通知”等)和连续数据(例如:“年龄”、“长度”成员(member)资格”等)。我以前没怎么用过scikit,但我认为高斯朴素贝叶斯适用于连续数据,而伯努利朴素贝叶斯可用于分类数据。但是,由于我想在我的模型中同时拥有分类数据和连续数据,我真的不知道如何处理这个问题。任何想法将不胜感激! 最佳答案 您至少有两个选择:通过计算每个连续变量的百分位数,然后使用百分

python - Scikit Learn SVC decision_function 和 predict

我试图了解decision_function和predict之间的关系,它们是SVC的实例方法(http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)。到目前为止,我已经收集到决策函数返回类之间的成对分数。我的印象是predict选择了最大化其成对分数的类,但我对此进行了测试并得到了不同的结果。这是我用来尝试理解两者之间关系的代码。首先,我生成了成对分数矩阵,然后我打印出了与clf.predict预测的类不同的最大成对分数的类。result=clf.decision_function(vector)[

python - 使用 scikit-learn 分类到多个类别

我正在尝试使用scikit-learn的一种监督学习方法将文本片段分类为一个或多个类别。我尝试过的所有算法的预测函数都只返回一个匹配项。比如我有一段文字:"TheatersinNewYorkcomparedtothoseinLondon"我已经训练算法为我输入的每个文本片段选择一个位置。在上面的示例中,我希望它返回NewYork和London,但它只返回NewYork。是否可以使用scikit-learn返回多个结果?或者甚至返回具有下一个最高概率的标签?感谢您的帮助。---更新我尝试使用OneVsRestClassifier,但我仍然只能获得每条文本的一个选项。下面是我正在使用的示例

python - 在 scikit-learn LinearRegression 中查找 p 值(显着性)

如何找到每个系数的p值(显着性)?lm=sklearn.linear_model.LinearRegression()lm.fit(x,y) 最佳答案 这有点矫枉过正,但让我们试一试。首先让我们使用statsmodel找出p值应该是什么importpandasaspdimportnumpyasnpfromsklearnimportdatasets,linear_modelfromsklearn.linear_modelimportLinearRegressionimportstatsmodels.apiassmfromscipyim

ruby-on-rails - Learn Enough Setup 的 Ruby 安装失败 - Puma gem 安装错误,Mac Sierra

我运行了geminstallpuma但由于这些错误而失败。我正在尝试为LearnEnoughRuby教程设置Ruby。[developer]$geminstallpuma-v'3.4.0'Buildingnativeextensions.Thiscouldtakeawhile...ERROR:Errorinstallingpuma:ERROR:Failedtobuildgemnativeextension.currentdirectory:/Users/Jim/.rvm/gems/ruby-2.4.0@newgemset/gems/puma-3.4.0/ext/puma_http11/

波士顿房价数据集进行数据预处理和模型训练(Python)

目录前言一、数据预处理定义二、波士顿房价数据进行数据预处理2.1下载波士顿房价数据集 2.2查看数据集的描述、特征及数据条数、特征数量2.3将数据读入pandas的DataFrame并转存到csv文件2.4查看数据集各个特征的类型以及是否有空值2.5对数据集做中心化度量:计算各个特征的中位数和均值,分析中位数和均值情况2.6对数据集做离散化度量:对第一个特征画盒图(箱线图),检查孤立点(离群点)2.7对所有特征画盒图(箱线图),检查孤立点(离群点)2.8对第一个特征排序后画散点图2.9对第一个特征画分位数图2.10对所有特征画分位数图2.11使用线性回归方法拟合第一个特征2.12使用局部回归(

波士顿房价数据集进行数据预处理和模型训练(Python)

目录前言一、数据预处理定义二、波士顿房价数据进行数据预处理2.1下载波士顿房价数据集 2.2查看数据集的描述、特征及数据条数、特征数量2.3将数据读入pandas的DataFrame并转存到csv文件2.4查看数据集各个特征的类型以及是否有空值2.5对数据集做中心化度量:计算各个特征的中位数和均值,分析中位数和均值情况2.6对数据集做离散化度量:对第一个特征画盒图(箱线图),检查孤立点(离群点)2.7对所有特征画盒图(箱线图),检查孤立点(离群点)2.8对第一个特征排序后画散点图2.9对第一个特征画分位数图2.10对所有特征画分位数图2.11使用线性回归方法拟合第一个特征2.12使用局部回归(

手把手教你:基于深度学习的滚动轴承故障诊断

系列文章手把手教你:玩转图像分类和目标检测系统手把手教你:图像识别的垃圾分类系统手把手教你:基于粒子群优化算法(PSO)优化卷积神经网络(CNN)的文本分类一、项目简介本文主要介绍如何使用python搭建:一个基于深度学习的滚动轴承故障诊断系统项目中涉及使用了多种方法对比检测结果,包括:传统机器学习方法:随机森林深度学习方法:CNN增加残差模块后的深度学习方法:CNN+ResBlock如各位童鞋需要更换训练数据,完全可以根据源码将图像和标注文件更换即可直接运行。博主也参考过网上故障检测的相关文章,但大多是理论大于方法。很多同学肯定对原理不需要过多了解,只需要搭建出一个基于深度学习的轴承故障预测