草庐IT

nltk-trainer

全部标签

Python (nltk) - UnicodeDecodeError : 'ascii' codec can't decode byte

我是NLTK的新手。我遇到了这个错误,我四处搜索编码/解码,特别是UnicodeDecodeError,但这个错误似乎特定于NLTK源代码。这是错误:Traceback(mostrecentcalllast):File"A:\Python\Projects\Test\main.py",line2,inprint(pos_tag(word_tokenize("John'sbigideaisn'tallthatbad.")))File"A:\Python\Python\lib\site-packages\nltk\tag\__init__.py",line100,inpos_tagtagg

python - 如何使用 spacy/nltk 生成 bi/tri-grams

输入文本总是菜名列表,其中有1~3个形容词和一个名词输入thaiicedteaspicyfriedchickensweetchiliporkthaichickencurry输出:thaitea,icedteaspicychicken,friedchickensweetpork,chiliporkthaichicken,chickencurry,thaicurry基本上,我希望解析句子树并尝试通过将形容词与名词配对来生成二元语法。我想用spacy或nltk来实现这一点 最佳答案 我使用带有英文模型的spacy2.0。找到名词和“非名词

python - NLTK 是否实现了 TF-IDF?

scikit-learn和gensim中都有TF-IDF实现。有简单的实现SimpleimplementationofN-Gram,tf-idfandCosinesimilarityinPython为了避免重新发明轮子,NLTK中真的没有TF-IDF吗?是否有我们可以操纵的子包来在NLTK中实现TF-IDF?如果有怎么办?在这篇博文中,它说NLTK没有它。这是真的吗?http://www.bogotobogo.com/python/NLTK/tf_idf_with_scikit-learn_NLTK.php 最佳答案 NLTKTex

python - 使用 Stanford coreNLP 在 python nltk 中进行共指解析

StanfordCoreNLP提供共指解析asmentionedhere,还有thisthread,this,提供了一些关于它在Java中的实现的见解。但是,我正在使用python和NLTK,我不确定如何在我的python代码中使用CoreNLP的共指解析功能。我已经能够在NLTK中设置StanfordParser,这是我目前的代码。fromnltk.parse.stanfordimportStanfordDependencyParserstanford_parser_dir='stanford-parser/'eng_model_path=stanford_parser_dir+"s

python - NLTK - 如何找出从 python 中安装的语料库?

我正在尝试加载一些我用NLTK安装程序安装的语料库,但我得到了:>>>fromnltk.corpusimportmachadoTraceback(mostrecentcalllast):File"",line1,inImportError:cannotimportnamemachado但在下载管理器(nltk.download())中,machado包被标记为已安装,我有一个nltk_data/corpus/machado文件夹。我如何从python解释器内部看到安装的语料库是什么?另外,我应该安装什么包来使用这个操作指南?http://nltk.googlecode.com/svn/

python - nltk.pos_tag() 是如何工作的?

nltk.pos_tag()是如何工作的?它是否涉及任何语料库的使用?我找到了一个源代码(nltk.tag-NLTK3.0文档),上面写着_POS_TAGGER='taggers/maxent_treebank_pos_tagger/english.pickle'.加载_POS_TAGGER给出一个对象:nltk.tag.sequential.ClassifierBasedPOSTagger,似乎没有来自语料库的训练。当我在名词前连续使用几个形容词时,标记是不正确的(例如thequickbrownfox)。我想知道我是否可以通过使用更好的标记方法或以某种方式使用更好的语料库进行训练来改

python - 如何使用 NLTK(pos 标记)获取动词的不定式形式

我正在尝试使用NLTK和Python学习自然语言处理(英语)。有没有办法在POS标记期间或之后获得动词的不定式形式。例如:是(VBZ)=>是提供(VBN)=>提供using(VBG)=>使用 最佳答案 关闭,您需要在开头添加“to”:>>>fromnltk.stem.wordnetimportWordNetLemmatizer>>>lemmatizer=WordNetLemmatizer()>>>lemmatizer.lemmatize('is','v')'be'>>>lemmatizer.lemmatize('provided',

python - 使用 NLTK 通过分块进行关系提取

我正在尝试根据Chapter7oftheNLTKbook了解如何使用NLTK的级联分block器.不幸的是,我在执行重要的分block措施时遇到了一些问题。让我们从这个短语开始:"adventuremoviesbetween2000and2015featuringperformancesbydanielcraig"当我使用以下语法时,我能够找到所有相关的NP:grammar="NP:{?*+}"但是,我不确定如何使用NLTK构建嵌套结构。该书给出了以下格式,但显然缺少一些东西(例如,一个人实际上如何指定多个规则?):grammar=r"""NP:{+}#Chunksequencesof

c# - 通过 IronPython 在 C# 中使用 NLTK

我使用的是VisualStudio2010。我有一个IronPython控制台项目和一个C#控制台项目。这个IronPython脚本在我单独运行时运行良好:importnltkdefSimple():baconIpsumFile=open('baconipsum.txt','r')baconIpsumCorpus=baconIpsumFile.read()tokens=nltk.word_tokenize(baconIpsumCorpus)text=nltk.Text(tokens)printtext这是C#控制台程序,它不能正常工作:usingIronPython.Hosting;n

python - 使用 nltk 从德语文本中提取单词

我正在尝试从德语文档中提取单词,当我使用nltk教程中描述的以下方法时,我无法获得具有语言特定特殊字符的单词。ptcr=nltk.corpus.PlaintextCorpusReader(Corpus,'.*');words=nltk.Text(ptcr.words(DocumentName))如何获取文档中的单词列表?德语短语VeränderungenübereinenWalzer的nltk.tokenize.WordPunctTokenizer()示例如下:In[231]:nltk.tokenize.WordPunctTokenizer().tokenize(u"Veränderu