方言分类

python - 在 Scikit 中加载自定义数据集(类似于 20 个新闻组集)以对文本文档进行分类

我正在尝试运行thisscikitexamplecode对于我的TedTalks自定义数据集。每个目录都是一个主题，主题下是包含每个Ted演讲描述的文本文件。这就是我的数据集树结构。如您所见，每个目录都是一个主题，下面是带有描述的文本文件。Topics/|--Activism||--1149.txt||--1444.txt||--157.txt||--1616.txt||--1706.txt||--1718.txt|--Adventure||--1036.txt||--1777.txt||--2930.txt||--2968.txt||--3027.txt||--3290.txt|--

自定中加 data train code python machine-learning dataset nlp scikit-learn

python - Jupyter - 在多个单元格中拆分类

我想知道是否有可能将jupyter类拆分到不同的单元格中？比方说:#firstcell:classfoo(object):def__init__(self,var):self.var=var#secondcelldefprint_var(self):print(self.var)对于更复杂的类，将它们写入一个单元格真的很烦人。我想将每个方法放在不同的单元格中。有人制作了this这是去年的事，但我想知道是否有内置的东西，所以我不需要外部脚本/导入。如果没有，我想知道是否有理由不让您有机会更轻松地拆分您的代码和文档/调试它。提前致谢最佳答案

Jupyter python section code https jupyter-notebook

python - 调整 BaggingClassifier 使用的分类器的参数

假设我想训练使用DecisionTreeClassifier的BaggingClassifier:dt=DecisionTreeClassifier(max_depth=1)bc=BaggingClassifier(dt,n_estimators=500,max_samples=0.5,max_features=0.5)bc=bc.fit(X_train,y_train)我想使用GridSearchCV为BaggingClassifier和DecisionTreeClassifier找到最佳参数(例如max_depth来自DecisionTreeClassifier和max_sampl

BaggingClassifier python code DecisionTreeClassifier scikit-learn

python - 使用 Sci-Kit 学习对大型语料库的文本进行分类

我的数据库中有大约1600篇文章，每篇文章都已预先标记为以下类别之一:TechnologyScienceBusinessWorldHealthEntertainmentSports我正在尝试使用sci-kitlearn构建一个分类器来对新文章进行分类。(我想我会将我的训练数据分成两半，用于训练和测试？)我希望使用tf-idf，因为我没有停用词列表(不过，我可以使用NLTK仅提取形容词和名词，但我宁愿将整篇文章提供给scikit-learn).我已经阅读了所有关于scikit-learn的文档，但是他们的示例涉及单词出现和N-gram(很好)，但他们从未指定如何将一段数据绑定(bind)

语料 Sci-Kit code 39 section python classification scikit-learn

python - Tensorflow:使用神经网络对正面或负面短语进行分类

我正在按照这里的教程进行操作:https://pythonprogramming.net/train-test-tensorflow-deep-learning-tutorial/我可以训练神经网络并打印出准确度。但是，我不知道如何使用神经网络进行预测。这是我的尝试。具体问题是这一行-我相信我的问题是我无法将我的输入字符串转换为模型期望的格式:features=get_features_for_input("Thiswasthebeststorei'veeverseen.")result=(sess.run(tf.argmax(prediction.eval(feed_dict={x:

短语负面 features code current_words python machine-learning tensorflow neural-network

python - sklearn 中的分类树给出不一致的答案

我正在使用sklearn的分类树，当我使用相同的数据对模型进行两次训练，并使用相同的测试数据进行预测时，我得到了不同的结果。我尝试在较小的iris数据集上进行复制，结果如预期的那样工作。这是一些代码fromsklearnimporttreefromsklearn.datasetsimportirisclf=tree.DecisionTreeClassifier()clf.fit(iris.data,iris.target)r1=clf.predict_proba(iris.data)clf.fit(iris.data,iris.target)r2=clf.predict_proba(i

sklearn python code section iris classification scikit-learn decision-tree

python - NLTK:使用数字分数而不是标签进行文档分类

根据一个项目，我一直在使用PythonNLTK和文档分类以及朴素贝叶斯分类器。据我从文档中了解到，如果您的不同文档被标记为pos或neg作为标签(或超过2个标签)，这将非常有效我正在处理的已经分类的文档没有标签，但它们有一个分数，一个介于0和5之间的float。我想做的是构建一个分类器，就像文档中的电影示例一样，但它会预测一段文本的分数，而不是标签。我相信文档中提到了这一点，但从未将其作为“数字特征的概率”进行进一步探索我既不是语言专家也不是统计学家，所以如果有人有这方面的例子，请与我分享，我将不胜感激。谢谢! 最佳答案您正在寻找

python NLTK section scikit-learn scikit

python - 如何将分类器升级到最新版本的scikit-learn

我有一个训练有素的大TfidfVectorizer转储joblib.dump.它是在我的笔记本电脑上使用scikit-learn0.18版创建的。当我试图将它放到安装了最新版本scikit-learn0.18.1的服务器上时，我收到以下警告:/usr/local/lib/python2.7/dist-packages/sklearn/base.py:315:UserWarning:TryingtounpickleestimatorTfidfTransformerfromversion0.18whenusingversion0.18.1.Thismightleadtobreakingco

scikit-learn python section code

python - 如何从 scikits.learn 分类器中提取信息然后在 C 代码中使用

我在Python中使用scikits.learn训练了一堆RBFSVM，然后Pickled结果。这些用于图像处理任务，我想为测试做的一件事是在某些测试图像的每个像素上运行每个分类器。也就是说，从以像素(i,j)为中心的窗口中提取特征向量，在该特征向量上运行每个分类器，然后移动到下一个像素并重复。这对于Python来说太慢了。澄清:当我说“这太慢了……”时，我的意思是即使scikits.learn使用的Libsvm底层代码也太慢了。我实际上是在为GPU编写一个手动决策函数，因此每个像素的分类是并行发生的。我是否可以使用Pickle加载分类器，然后获取某种描述如何根据特征向量计算决策的属性

scikits python code section strong svm libsvm scikit-learn

python - GridSearchCV 可以与自定义分类器一起使用吗？

我创建了一个自定义的手工编码分类器，它实现了标准的sklearn分类器函数(fit()、predict()和predict_proba()).这可以直接与sklearn实用程序GridSearchCV()一起使用，还是应该添加任何内容？编辑1:根据cel的建议，我尝试直接应用它第一步是按照说明添加get_params和set_paramshere.果然，完整的交叉验证程序确实运行了，但最终出现以下错误returnself._fit(X,y,ParameterGrid(self.param_grid))best_estimator.fit(X,y,**self.fit_params)At

自定 GridSearchCV self tensor data python scikit-learn

122 123 124125126 127 128