草庐IT

方言分类

全部标签

python - 如何训练大型数据集进行分类

我有一个包含1600000条推文的训练数据集。我该如何训练这种庞大的数据。我尝试过使用nltk.NaiveBayesClassifier。如果我运行,训练需要5天以上。defextract_features(tweet):tweet_words=set(tweet)features={}forwordinfeatureList:features['contains(%s)'%word]=(wordintweet_words)returnfeaturestraining_set=nltk.classify.util.apply_features(extract_features,twee

python - 多类分类的每类 F1 分数

我正在使用python和scikit-learn处理多类分类问题。目前,我正在使用classification_report函数来评估我的分类器的性能,获得如下报告:>>>print(classification_report(y_true,y_pred,target_names=target_names))precisionrecallf1-scoresupportclass00.501.000.671class10.000.000.001class21.000.670.803avg/total0.700.600.615为了做进一步的分析,我很想获得每个可用类(class)的每个类(

python - 在 scikit-learn 中实现 K 邻居分类器,每个对象具有 3 个特征

我想用scikit-learn模块(http://scikit-learn.org/dev/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)实现一个KNeighborsClassifier我从我的图像中检索坚固性、伸长率和Humoments特征。我如何准备这些数据以进行培训和验证?我必须为我从图像中检索到的每个对象创建一个包含3个特征[Hm,e,s]的列表(从1个图像中有更多对象)?我读了这个例子(http://scikit-learn.org/dev/modules/generated/sklearn.nei

python - 为什么LinearSVC做不了这种简单的分类呢?

我正在尝试使用scikit-learn中的LinearSVC对象进行以下简单分类。我试过同时使用0.10和0.14版本。使用代码:fromsklearn.svmimportLinearSVC,SVCfromnumpyimport*data=array([[1007.,1076.],[1017.,1009.],[2021.,2029.],[2060.,2085.]])groups=array([1,1,2,2])svc=LinearSVC()svc.fit(data,groups)svc.predict(data)我得到输出:array([2,2,2,2])但是,如果我将分类器替换为sv

python - 如何使用 DecisionTreeClassifier 来平衡分类?

我有一个数据集,其中的类是不平衡的。这些类是0、1或2。如何计算每个类别的预测误差,然后在scikit-learn中相应地重新平衡权重? 最佳答案 如果你想完全平衡(将每个类视为同等重要),你可以简单地传递class_weight='balanced',如docs中所述:The“balanced”modeusesthevaluesofytoautomaticallyadjustweightsinverselyproportionaltoclassfrequenciesintheinputdataasn_samples/(n_clas

python - 什么时候应该使用 "Natural Language"PyPI 分类器?

有一个listofclassifiers我们可以在setup.py中定义以在PyPI中对我们的python包进行分类.其中有一些语言的“NaturalLanguage”分类器。什么时候应该将这些分类器包含在项目的setup.py中?是针对自然语言处理相关的包,还是当包的源代码是用相应的语言编写的时候才应该使用? 最佳答案 左字。虽然PyPI限制其列表中分类器的使用,但没有解释如何使用列表中的每个分类器。PyPA'ssampleproject给你一些提示(第78到99行),并且还说使用分类器是可选的!conceptbehindclas

python - scikit 学习管道中的后处理分类器输出

我在scikit中使用Pipeline学习将一些预处理与OneClassSVM组合在一起作为最终分类器。为了计算合理的指标,我需要一个后处理,将OneClassSVM的-1,1输出转换为0和1。是否有任何结构化的方法可以将这种后处理添加到管道?在最终估算器之后不能使用转换器。 最佳答案 您可以将类sklearn.preprocessing.TransformedTargetRegressor与您的SVM分类器一起用作回归器,并使用inverse_func参数在分类后转换您的标签。但是,由于TransformedTargetRegre

朴素贝叶斯分类器原理介绍及python代码实现

目录频率学派和贝叶斯学派朴素贝叶斯分类器python实现朴素贝叶斯分类器频率学派和贝叶斯学派说起概率统计,不得不提到频率学派和贝叶斯学派,通过对概率的不同理解而演变的两个不同的概率学派。频率学派核心思想:需要得到的参数​是一个确定的值,虽然未知,但是不会因为样本X的变化而变化,样本​数据随机产生的,因此在数据样本无限大时,其计算出来的频率即为概率。其重点主要在于研究样本空间,分析样本X​的分布延展应用:最大似然估计(MLE)贝叶斯学派核心思想:需要得到的参数​是随机变量,而样本​则是固定的,其重点主要在于研究参数​​的分布。 由于在贝叶斯学派中参数​​的是随机变量,是随着样本信息而变化的,所以

python - 使用我自己的语料库在 Python NLTK 中进行类别分类

我是一名NTLK/Python初学者,并设法使用CategorizedPlaintextCorpusReader加载了我自己的语料库,但我如何实际训练和使用数据进行文本分类?>>>fromnltk.corpus.readerimportCategorizedPlaintextCorpusReader>>>reader=CategorizedPlaintextCorpusReader('/ebs/category',r'.*\.txt',cat_pattern=r'(.*)\.txt')>>>len(reader.categories())234 最佳答案

python - NLTK/NLP 构建多对多/多标签主题分类器

我有一个人工标记的语料库,其中包含5000多个XML主题索引文档。它们的大小从几百千字节到几百兆字节不等。短文转手稿。它们都被索引到了段落级别。我很幸运有这样的语料库,我正在尝试自学一些NLP概念。诚然,我才刚刚开始。到目前为止,只阅读了免费提供的NLTK书籍,streamhacker,并略读jacobs(?)NLTK食谱。我喜欢尝试一些想法。有人向我建议,也许我可以采用二元语法并使用朴素贝叶斯分类来标记新文档。我觉得这是错误的做法。朴素贝叶斯精通真/假关系,但要在我的分层标签集上使用它,我需要为每个标签构建一个新的分类器。其中将近1000个。我有足够的内存和处理器能力来完成这样的任务