草庐IT

MRI分类

全部标签

python - 推特/ Facebook 评论分类为各种类别

我有一些评论数据集,我想将其分为五类:-jewelries,clothes,shoes,electronics,food&beverages所以如果有人谈论pig肉,牛排,酒,苏打水,吃:它归类为f&b而如果有人谈论说-黄金,吊坠,小盒坠子等:它分为珠宝我想知道,我应该在评论/推文中寻找哪些标签/token,以便将其分类为这些类别中的任何一个。最后使用哪个分类器。我只需要一些指导和建议,我会从那里接受。请帮忙。谢谢 最佳答案 这个答案可能有点长,也许我抽象了一些东西,但这只是给你一个想法和一些建议。有监督与无监督正如其他人已经提到的

python - 使用 scikit learn 检索错误分类的文档

我很想知道scikitlearnpython模块中是否有内置函数,可以检索错误分类的文档。这很简单,我通常通过比较预测向量和测试向量并从测试文档数组中检索文档来自己编写它。但我问的是它是否有内置功能,而不是在我编写的每个python代码中复制功能。 最佳答案 如果您有一组文档的真实标签y_test列表,例如["ham","spam","spam","ham"]并将其转换为NumPy数组,然后您可以将其与一行中的预测进行比较:importnumpyasnpy_test=np.asarray(y_test)misclassified=n

python - 如何训练大型数据集进行分类

我有一个包含1600000条推文的训练数据集。我该如何训练这种庞大的数据。我尝试过使用nltk.NaiveBayesClassifier。如果我运行,训练需要5天以上。defextract_features(tweet):tweet_words=set(tweet)features={}forwordinfeatureList:features['contains(%s)'%word]=(wordintweet_words)returnfeaturestraining_set=nltk.classify.util.apply_features(extract_features,twee

python - 多类分类的每类 F1 分数

我正在使用python和scikit-learn处理多类分类问题。目前,我正在使用classification_report函数来评估我的分类器的性能,获得如下报告:>>>print(classification_report(y_true,y_pred,target_names=target_names))precisionrecallf1-scoresupportclass00.501.000.671class10.000.000.001class21.000.670.803avg/total0.700.600.615为了做进一步的分析,我很想获得每个可用类(class)的每个类(

python - 在 scikit-learn 中实现 K 邻居分类器,每个对象具有 3 个特征

我想用scikit-learn模块(http://scikit-learn.org/dev/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)实现一个KNeighborsClassifier我从我的图像中检索坚固性、伸长率和Humoments特征。我如何准备这些数据以进行培训和验证?我必须为我从图像中检索到的每个对象创建一个包含3个特征[Hm,e,s]的列表(从1个图像中有更多对象)?我读了这个例子(http://scikit-learn.org/dev/modules/generated/sklearn.nei

python - 为什么LinearSVC做不了这种简单的分类呢?

我正在尝试使用scikit-learn中的LinearSVC对象进行以下简单分类。我试过同时使用0.10和0.14版本。使用代码:fromsklearn.svmimportLinearSVC,SVCfromnumpyimport*data=array([[1007.,1076.],[1017.,1009.],[2021.,2029.],[2060.,2085.]])groups=array([1,1,2,2])svc=LinearSVC()svc.fit(data,groups)svc.predict(data)我得到输出:array([2,2,2,2])但是,如果我将分类器替换为sv

python - 如何使用 DecisionTreeClassifier 来平衡分类?

我有一个数据集,其中的类是不平衡的。这些类是0、1或2。如何计算每个类别的预测误差,然后在scikit-learn中相应地重新平衡权重? 最佳答案 如果你想完全平衡(将每个类视为同等重要),你可以简单地传递class_weight='balanced',如docs中所述:The“balanced”modeusesthevaluesofytoautomaticallyadjustweightsinverselyproportionaltoclassfrequenciesintheinputdataasn_samples/(n_clas

python - 什么时候应该使用 "Natural Language"PyPI 分类器?

有一个listofclassifiers我们可以在setup.py中定义以在PyPI中对我们的python包进行分类.其中有一些语言的“NaturalLanguage”分类器。什么时候应该将这些分类器包含在项目的setup.py中?是针对自然语言处理相关的包,还是当包的源代码是用相应的语言编写的时候才应该使用? 最佳答案 左字。虽然PyPI限制其列表中分类器的使用,但没有解释如何使用列表中的每个分类器。PyPA'ssampleproject给你一些提示(第78到99行),并且还说使用分类器是可选的!conceptbehindclas

python - scikit 学习管道中的后处理分类器输出

我在scikit中使用Pipeline学习将一些预处理与OneClassSVM组合在一起作为最终分类器。为了计算合理的指标,我需要一个后处理,将OneClassSVM的-1,1输出转换为0和1。是否有任何结构化的方法可以将这种后处理添加到管道?在最终估算器之后不能使用转换器。 最佳答案 您可以将类sklearn.preprocessing.TransformedTargetRegressor与您的SVM分类器一起用作回归器,并使用inverse_func参数在分类后转换您的标签。但是,由于TransformedTargetRegre

朴素贝叶斯分类器原理介绍及python代码实现

目录频率学派和贝叶斯学派朴素贝叶斯分类器python实现朴素贝叶斯分类器频率学派和贝叶斯学派说起概率统计,不得不提到频率学派和贝叶斯学派,通过对概率的不同理解而演变的两个不同的概率学派。频率学派核心思想:需要得到的参数​是一个确定的值,虽然未知,但是不会因为样本X的变化而变化,样本​数据随机产生的,因此在数据样本无限大时,其计算出来的频率即为概率。其重点主要在于研究样本空间,分析样本X​的分布延展应用:最大似然估计(MLE)贝叶斯学派核心思想:需要得到的参数​是随机变量,而样本​则是固定的,其重点主要在于研究参数​​的分布。 由于在贝叶斯学派中参数​​的是随机变量,是随着样本信息而变化的,所以