草庐IT

naivebayes

全部标签

java - 在 Java 中使用朴素贝叶斯 (weka) 进行简单文本分类

我尝试在我的java代码中做文本分类朴素贝叶斯weka库,但我认为分类的结果不正确,我不知道是什么问题。我使用arff文件作为输入。这是我的训练数据:@relationhamspam@attributetextstring@attributeclass{spam,ham}@data'good',ham'good',ham'verygood',ham'bad',spam'verybad',spam'verybad,verybad',spam'goodgoodbad',ham这是我的测试数据:@relationtest@attributetextstring@attributeclass{

python - 如何查出准确率?

我想知道sklearn中是否有一个函数对应于准确度(实际数据和预测数据之间的差异)以及如何打印出来?fromsklearnimportdatasetsiris=datasets.load_iris()fromsklearn.naive_bayesimportGaussianNBnaive_classifier=GaussianNB()y=naive_classifier.fit(iris.data,iris.target).predict(iris.data)pr=naive_classifier.predict(iris.data) 最佳答案

python - 多项式朴素贝叶斯参数 alpha 设置? scikit学习

有谁知道在做朴素贝叶斯分类时如何设置alpha参数吗?例如我首先使用词袋构建特征矩阵,矩阵的每个单元格都是词的计数,然后我使用tf(termfrequency)对矩阵进行归一化。但是当我使用朴素贝叶斯构建分类器模型时,我选择使用多项式N.B(我认为这是正确的,而不是伯努利和高斯)。默认的alpha设置是1.0(文档说它是拉普拉斯平滑,我不知道是什么)。结果真的很糟糕,只有21%的召回率找到了正类(目标类)。但是当我设置alpha=0.0001(我随机选择)时,结果得到95%的召回率。此外,我检查了多项式N.Bformula,我认为这是因为alpha问题,因为如果我使用单词计数作为特征,

python - 将文档分类

我在Postgres数据库中存储了大约300k文档,这些文档带​​有主题类别(总共大约150个类别)。我还有另外150k个文档还没有类别。我正在尝试找到以编程方式对它们进行分类的最佳方法。我一直在探索NLTK及其朴素贝叶斯分类器。似乎是一个很好的起点(如果您能为这项任务提出更好的分类算法,我会全力以赴)。我的问题是我没有足够的RAM来一次在所有150个类别/300k文档上训练NaiveBayesClassifier(5个类别的训练使用8GB)。此外,随着我​​对更多类别进行训练,分类器的准确率似乎会下降(2个类别的准确率为90%,5个类别为81%,10个类别为61%)。我是否应该一次只

python - 将文档分类

我在Postgres数据库中存储了大约300k文档,这些文档带​​有主题类别(总共大约150个类别)。我还有另外150k个文档还没有类别。我正在尝试找到以编程方式对它们进行分类的最佳方法。我一直在探索NLTK及其朴素贝叶斯分类器。似乎是一个很好的起点(如果您能为这项任务提出更好的分类算法,我会全力以赴)。我的问题是我没有足够的RAM来一次在所有150个类别/300k文档上训练NaiveBayesClassifier(5个类别的训练使用8GB)。此外,随着我​​对更多类别进行训练,分类器的准确率似乎会下降(2个类别的准确率为90%,5个类别为81%,10个类别为61%)。我是否应该一次只

python - 在 NLTK 中保存朴素贝叶斯训练分类器

对于如何保存经过训练的分类器,我有些困惑。例如,每次我想使用它时重新训练一个分类器显然真的很糟糕而且很慢,我如何保存它并在需要时再次加载它?代码如下,提前感谢您的帮助。我正在使用带有NLTK朴素贝叶斯分类器的Python。classifier=nltk.NaiveBayesClassifier.train(training_set)#lookinsidetheclassifiertrainmethodinthesourcecodeoftheNLTKlibrarydeftrain(labeled_featuresets,estimator=nltk.probability.ELEProb

python - 在 NLTK 中保存朴素贝叶斯训练分类器

对于如何保存经过训练的分类器,我有些困惑。例如,每次我想使用它时重新训练一个分类器显然真的很糟糕而且很慢,我如何保存它并在需要时再次加载它?代码如下,提前感谢您的帮助。我正在使用带有NLTK朴素贝叶斯分类器的Python。classifier=nltk.NaiveBayesClassifier.train(training_set)#lookinsidetheclassifiertrainmethodinthesourcecodeoftheNLTKlibrarydeftrain(labeled_featuresets,estimator=nltk.probability.ELEProb