草庐IT

nltk_contrib

全部标签

python - 使用 Stanford coreNLP 在 python nltk 中进行共指解析

StanfordCoreNLP提供共指解析asmentionedhere,还有thisthread,this,提供了一些关于它在Java中的实现的见解。但是,我正在使用python和NLTK,我不确定如何在我的python代码中使用CoreNLP的共指解析功能。我已经能够在NLTK中设置StanfordParser,这是我目前的代码。fromnltk.parse.stanfordimportStanfordDependencyParserstanford_parser_dir='stanford-parser/'eng_model_path=stanford_parser_dir+"s

python - NLTK - 如何找出从 python 中安装的语料库?

我正在尝试加载一些我用NLTK安装程序安装的语料库,但我得到了:>>>fromnltk.corpusimportmachadoTraceback(mostrecentcalllast):File"",line1,inImportError:cannotimportnamemachado但在下载管理器(nltk.download())中,machado包被标记为已安装,我有一个nltk_data/corpus/machado文件夹。我如何从python解释器内部看到安装的语料库是什么?另外,我应该安装什么包来使用这个操作指南?http://nltk.googlecode.com/svn/

python - nltk.pos_tag() 是如何工作的?

nltk.pos_tag()是如何工作的?它是否涉及任何语料库的使用?我找到了一个源代码(nltk.tag-NLTK3.0文档),上面写着_POS_TAGGER='taggers/maxent_treebank_pos_tagger/english.pickle'.加载_POS_TAGGER给出一个对象:nltk.tag.sequential.ClassifierBasedPOSTagger,似乎没有来自语料库的训练。当我在名词前连续使用几个形容词时,标记是不正确的(例如thequickbrownfox)。我想知道我是否可以通过使用更好的标记方法或以某种方式使用更好的语料库进行训练来改

python - 如何使用 NLTK(pos 标记)获取动词的不定式形式

我正在尝试使用NLTK和Python学习自然语言处理(英语)。有没有办法在POS标记期间或之后获得动词的不定式形式。例如:是(VBZ)=>是提供(VBN)=>提供using(VBG)=>使用 最佳答案 关闭,您需要在开头添加“to”:>>>fromnltk.stem.wordnetimportWordNetLemmatizer>>>lemmatizer=WordNetLemmatizer()>>>lemmatizer.lemmatize('is','v')'be'>>>lemmatizer.lemmatize('provided',

python - 使用 NLTK 通过分块进行关系提取

我正在尝试根据Chapter7oftheNLTKbook了解如何使用NLTK的级联分block器.不幸的是,我在执行重要的分block措施时遇到了一些问题。让我们从这个短语开始:"adventuremoviesbetween2000and2015featuringperformancesbydanielcraig"当我使用以下语法时,我能够找到所有相关的NP:grammar="NP:{?*+}"但是,我不确定如何使用NLTK构建嵌套结构。该书给出了以下格式,但显然缺少一些东西(例如,一个人实际上如何指定多个规则?):grammar=r"""NP:{+}#Chunksequencesof

c# - 通过 IronPython 在 C# 中使用 NLTK

我使用的是VisualStudio2010。我有一个IronPython控制台项目和一个C#控制台项目。这个IronPython脚本在我单独运行时运行良好:importnltkdefSimple():baconIpsumFile=open('baconipsum.txt','r')baconIpsumCorpus=baconIpsumFile.read()tokens=nltk.word_tokenize(baconIpsumCorpus)text=nltk.Text(tokens)printtext这是C#控制台程序,它不能正常工作:usingIronPython.Hosting;n

python - 使用 nltk 从德语文本中提取单词

我正在尝试从德语文档中提取单词,当我使用nltk教程中描述的以下方法时,我无法获得具有语言特定特殊字符的单词。ptcr=nltk.corpus.PlaintextCorpusReader(Corpus,'.*');words=nltk.Text(ptcr.words(DocumentName))如何获取文档中的单词列表?德语短语VeränderungenübereinenWalzer的nltk.tokenize.WordPunctTokenizer()示例如下:In[231]:nltk.tokenize.WordPunctTokenizer().tokenize(u"Veränderu

python - 如何在 Heroku 中安装 NLTK 模块

嘿,我想在我的Heroku服务器上安装NLTKpos_tag。我怎么能这样做。请给我Heroku服务器系统的新步骤。 最佳答案 我刚刚向buildpack添加了官方nltk支持!只需添加一个包含您要安装的语料库列表的nltk.txt文件,一切都会按预期进行。 关于python-如何在Heroku中安装NLTK模块,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/18385303/

python - 将单词添加到 nltk 停止列表

我有一些代码可以从我的数据集中删除停用词,因为停用列表似乎没有删除大部分我也想要的词,我正在寻找向这个停用列表添加词,以便对于这种情况,它将删除它们。我用来删除停用词的代码是:word_list2=[w.strip()forwinword_listifw.strip()notinnltk.corpus.stopwords.words('english')]我不确定添加单词的正确语法,而且似乎无法在任何地方找到正确的语法。任何帮助表示赞赏。谢谢。 最佳答案 您可以简单地使用append方法向其中添加单词:stopwords=nltk.

python - NLTK 性能

好吧,我最近对自然语言处理很感兴趣:但是,到目前为止,我的大部分工作都使用C。我听说过NLTK,我不知道Python,但它似乎很容易学,而且它看起来像一门非常强大和有趣的语言。特别是,NLTK模块似乎非常非常适合我需要做的事情。但是,当使用samplecodeforNLTK时并将其粘贴到一个名为test.py的文件中,我注意到运行它需要非常非常长的时间!我在shell中这样调用它:timepython./test.py而在具有4GBRAM的2.4GHz机器上,它需要19.187秒!现在,也许这绝对是正常的,但我的印象是NTLK非常快;我可能弄错了,但有什么明显的地方我做错了吗?