nltk_contrib

python - NLTK 中的 Wordnet 选择限制

有没有办法通过NLTK从同义词集中捕获WordNet选择限制(例如+animate、+human等)？或者是否有任何其他方式提供有关同义词集的语义信息？我能得到的最接近它的是上位词关系。最佳答案这取决于你的“选择限制”是什么，或者我称之为语义特征，因为在经典语义中，存在着一个概念的世界，为了比较我们必须找到的概念区分特征(即用于区分概念的特征)和相似特征(即相似概念的特征，并强调区分它们的必要性)例如:Manis[+HUMAN],[+MALE],[+ADULT]Womanis[+HUMAN],[-MALE],[+ADULT][+

python - 我怎么能在 python/nltk 中使用完整的 penn treebank 数据集

我正在努力学习使用NLTK在python中打包。特别是，我需要在NLTK中使用penntreebank数据集。据我所知，如果我调用nltk.download('treebank')我可以获得数据集的5%。但是，我在tar.gz文件中有一个完整的数据集，我想使用它。在here据说:IfyouhaveaccesstoafullinstallationofthePennTreebank,NLTKcanbeconfiguredtoloaditaswell.Downloadtheptbpackage,andinthedirectorynltk_data/corpora/ptbplacetheBR

python treebank code nltk section nlp corpus penn-treebank

python - 使用我自己的语料库在 Python NLTK 中进行类别分类

我是一名NTLK/Python初学者，并设法使用CategorizedPlaintextCorpusReader加载了我自己的语料库，但我如何实际训练和使用数据进行文本分类？>>>fromnltk.corpus.readerimportCategorizedPlaintextCorpusReader>>>reader=CategorizedPlaintextCorpusReader('/ebs/category',r'.*\.txt',cat_pattern=r'(.*)\.txt')>>>len(reader.categories())234 最佳答案

中进语料 code section python nlp machine-learning nltk corpus

python - 导入错误 : No module named 'keras_contrib'

我正在尝试使用下面的导入命令导入Keraslib代码以执行CRF，但如标题所示出现错误。请分享解决方案。用来执行的命令是fromkeras_contrib.layersimportCRFTraceback(mostrecentcalllast):File"",line1,infromkeras_contrib.layersimportCRFImportError:Nomodulenamed'keras_contrib' 最佳答案一个简单的(sudo)pipinstallgit+https://www.github.com/kera

keras_contrib amp section keras contrib python

python - NLTK/NLP 构建多对多/多标签主题分类器

我有一个人工标记的语料库，其中包含5000多个XML主题索引文档。它们的大小从几百千字节到几百兆字节不等。短文转手稿。它们都被索引到了段落级别。我很幸运有这样的语料库，我正在尝试自学一些NLP概念。诚然，我才刚刚开始。到目前为止，只阅读了免费提供的NLTK书籍，streamhacker,并略读jacobs(?)NLTK食谱。我喜欢尝试一些想法。有人向我建议，也许我可以采用二元语法并使用朴素贝叶斯分类来标记新文档。我觉得这是错误的做法。朴素贝叶斯精通真/假关系，但要在我的分层标签集上使用它，我需要为每个标签构建一个新的分类器。其中将近1000个。我有足够的内存和处理器能力来完成这样的任务

python NLTK 贝叶 section 的 statistics nlp machine-learning

python - 如何使用 NLTK pos 标签获得更好的结果

我正在使用Python学习nltk。我尝试在各种句子上做pos_tag。但得到的结果并不准确。我如何即兴创作结果？broke=NNflimsy=NNcrap=NN我也得到了很多额外的词被归类为NN。我怎样才能过滤掉这些以获得更好的结果。？最佳答案给出上下文，你就得到了这些结果。举个例子，我在上下文短语“Theybrokeclimsycrap”上使用pos_tag获得了其他结果:importnltktext=nltk.word_tokenize("Theybrokeflimsycrap")nltk.pos_tag(text)[('

python NLTK section 39 blockquote pos-tagger

python - 我可以在 NLTK 中使用哪个垃圾邮件语料库？

我的问题与thisone相当相关，但我决定打开另一个问题线程。我希望它很好。我也在使用Python中的NLTK构建垃圾邮件过滤器，但我才刚刚开始。我想知道我可以使用哪个垃圾邮件语料库以及如何导入它？我没有发现任何“内置于NLTK”的垃圾邮件语料库(here)。提前谢谢你。最佳答案这presentation使用enron-spamdataset(200,000多封电子邮件)。Thetrainingandtestingsetscomefromadatasetof200,000+Enronemailswhichcontainboth“

语料 python section noreferrer nltk spam-prevention corpus

python - 使用 NLTK 和 Pandas 删除停用词

我对Pandas和NLTK有一些疑问。我是编程新手，如果我问的问题可能很容易解决，请原谅。我有一个csv文件，它有3列(Id、标题、正文)和大约15.000行。我的目标是从此csv文件中删除停用词。小写和拆分操作运行良好。但是我找不到为什么停用词没有被删除的错误。我错过了什么？importpandasaspdfromnltk.corpusimportstopwordspd.read_csv("test10in.csv",encoding="utf-8")df=pd.read_csv("test10in.csv")df.columns=['Id','Title','Body']df['T

用词 python 39 item section csv pandas nltk stop-words

python - 在没有 django.contrib.admin 的情况下运行 django 应用程序

我试图在没有Django管理面板的情况下运行我的Django应用程序，因为我现在不需要它，但得到一个异常值:Put'django.contrib.admin'inyourINSTALLED_APPSsettinginordertousetheadminapplication.我可以在没有django.contrib.admin的情况下运行我的应用程序吗？即使去我的localhost:8000它也显示你需要在你的installed_apps中添加django.contrib.admin？最佳答案 django.contrib.adm

django contrib code admin section python django-admin django-admin-tools

python - 如何在 Twitter 数据的 Pandas 数据框上应用 NLTK word_tokenize 库？

这是我用于Twitter语义分析的代码:-importpandasaspdimportdatetimeimportnumpyasnpimportrefromnltk.tokenizeimportword_tokenizefromnltk.corpusimportstopwordsfromnltk.stem.wordnetimportWordNetLemmatizerfromnltk.stem.porterimportPorterStemmerdf=pd.read_csv('twitDB.csv',header=None,sep=',',error_bad_lines=False,enc

word_tokenize 何在 39 tokenize nltk python pandas twitter

22 23 242526 27 28