方言分类

python - 如何训练大型数据集进行分类

我有一个包含1600000条推文的训练数据集。我该如何训练这种庞大的数据。我尝试过使用nltk.NaiveBayesClassifier。如果我运行，训练需要5天以上。defextract_features(tweet):tweet_words=set(tweet)features={}forwordinfeatureList:features['contains(%s)'%word]=(wordintweet_words)returnfeaturestraining_set=nltk.classify.util.apply_features(extract_features,twee

训练大型 39 test train python classification nltk svm naivebayes

python - 多类分类的每类 F1 分数

我正在使用python和scikit-learn处理多类分类问题。目前，我正在使用classification_report函数来评估我的分类器的性能，获得如下报告:>>>print(classification_report(y_true,y_pred,target_names=target_names))precisionrecallf1-scoresupportclass00.501.000.671class10.000.000.001class21.000.670.803avg/total0.700.600.615为了做进一步的分析，我很想获得每个可用类(class)的每个类(

python F1 code section class machine-learning scikit-learn

python - 在 scikit-learn 中实现 K 邻居分类器，每个对象具有 3 个特征

我想用scikit-learn模块(http://scikit-learn.org/dev/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)实现一个KNeighborsClassifier我从我的图像中检索坚固性、伸长率和Humoments特征。我如何准备这些数据以进行培训和验证？我必须为我从图像中检索到的每个对象创建一个包含3个特征[Hm,e,s]的列表(从1个图像中有更多对象)？我读了这个例子(http://scikit-learn.org/dev/modules/generated/sklearn.nei

scikit-learn python code KNeighborsClassifier neighbors machine-learning nearest-neighbor classification

python - 为什么LinearSVC做不了这种简单的分类呢？

我正在尝试使用scikit-learn中的LinearSVC对象进行以下简单分类。我试过同时使用0.10和0.14版本。使用代码:fromsklearn.svmimportLinearSVC,SVCfromnumpyimport*data=array([[1007.,1076.],[1017.,1009.],[2021.,2029.],[2060.,2085.]])groups=array([1,1,2,2])svc=LinearSVC()svc.fit(data,groups)svc.predict(data)我得到输出:array([2,2,2,2])但是，如果我将分类器替换为sv

LinearSVC python code section scikit-learn libsvm liblinear

python - 如何使用 DecisionTreeClassifier 来平衡分类？

我有一个数据集，其中的类是不平衡的。这些类是0、1或2。如何计算每个类别的预测误差，然后在scikit-learn中相应地重新平衡权重？最佳答案如果你想完全平衡(将每个类视为同等重要)，你可以简单地传递class_weight='balanced'，如docs中所述:The“balanced”modeusesthevaluesofytoautomaticallyadjustweightsinverselyproportionaltoclassfrequenciesintheinputdataasn_samples/(n_clas

DecisionTreeClassifier python code section machine-learning scikit-learn decision-tree

python - 什么时候应该使用 "Natural Language"PyPI 分类器？

有一个listofclassifiers我们可以在setup.py中定义以在PyPI中对我们的python包进行分类.其中有一些语言的“NaturalLanguage”分类器。什么时候应该将这些分类器包含在项目的setup.py中？是针对自然语言处理相关的包，还是当包的源代码是用相应的语言编写的时候才应该使用？最佳答案左字。虽然PyPI限制其列表中分类器的使用，但没有解释如何使用列表中的每个分类器。PyPA'ssampleproject给你一些提示(第78到99行)，并且还说使用分类器是可选的!conceptbehindclas

amp Language noreferrer section noopener python setuptools distutils pypi

python - scikit 学习管道中的后处理分类器输出

我在scikit中使用Pipeline学习将一些预处理与OneClassSVM组合在一起作为最终分类器。为了计算合理的指标，我需要一个后处理，将OneClassSVM的-1,1输出转换为0和1。是否有任何结构化的方法可以将这种后处理添加到管道？在最终估算器之后不能使用转换器。最佳答案您可以将类sklearn.preprocessing.TransformedTargetRegressor与您的SVM分类器一起用作回归器，并使用inverse_func参数在分类后转换您的标签。但是，由于TransformedTargetRegre

python scikit code section TransformedTargetRegressor scikit-learn pipeline post-processing

朴素贝叶斯分类器原理介绍及python代码实现

目录频率学派和贝叶斯学派朴素贝叶斯分类器python实现朴素贝叶斯分类器频率学派和贝叶斯学派说起概率统计，不得不提到频率学派和贝叶斯学派，通过对概率的不同理解而演变的两个不同的概率学派。频率学派核心思想：需要得到的参数是一个确定的值，虽然未知，但是不会因为样本X的变化而变化，样本数据随机产生的，因此在数据样本无限大时，其计算出来的频率即为概率。其重点主要在于研究样本空间，分析样本X的分布延展应用：最大似然估计（MLE）贝叶斯学派核心思想：需要得到的参数是随机变量，而样本则是固定的，其重点主要在于研究参数的分布。由于在贝叶斯学派中参数的是随机变量，是随着样本信息而变化的，所以

贝叶朴素 prob 39 python 机器学习概率论

python - 使用我自己的语料库在 Python NLTK 中进行类别分类

我是一名NTLK/Python初学者，并设法使用CategorizedPlaintextCorpusReader加载了我自己的语料库，但我如何实际训练和使用数据进行文本分类？>>>fromnltk.corpus.readerimportCategorizedPlaintextCorpusReader>>>reader=CategorizedPlaintextCorpusReader('/ebs/category',r'.*\.txt',cat_pattern=r'(.*)\.txt')>>>len(reader.categories())234 最佳答案

中进语料 code section python nlp machine-learning nltk corpus

python - NLTK/NLP 构建多对多/多标签主题分类器

我有一个人工标记的语料库，其中包含5000多个XML主题索引文档。它们的大小从几百千字节到几百兆字节不等。短文转手稿。它们都被索引到了段落级别。我很幸运有这样的语料库，我正在尝试自学一些NLP概念。诚然，我才刚刚开始。到目前为止，只阅读了免费提供的NLTK书籍，streamhacker,并略读jacobs(?)NLTK食谱。我喜欢尝试一些想法。有人向我建议，也许我可以采用二元语法并使用朴素贝叶斯分类来标记新文档。我觉得这是错误的做法。朴素贝叶斯精通真/假关系，但要在我的分层标签集上使用它，我需要为每个标签构建一个新的分类器。其中将近1000个。我有足够的内存和处理器能力来完成这样的任务

python NLTK 贝叶 section 的 statistics nlp machine-learning

121 122 123124125 126 127