草庐IT

python - NLTK 命名实体识别到 Python 列表

我使用NLTK的ne_chunk从文本中提取命名实体:my_sent="WASHINGTON--InthewakeofastringofabusesbyNewYorkpoliceofficersinthe1990s,LorettaE.Lynch,thetopfederalprosecutorinBrooklyn,spokeforcefullyaboutthepainofabrokentrustthatAfrican-Americansfeltandsaidtheresponsibilityforrepairinggenerationsofmiscommunicationandmistr

python - 如何测试运行我的代码的机器上是否已经安装了 nltk 资源?

我刚刚开始我的第一个NLTK项目,对正确的设置感到困惑。我需要一些资源,例如PunktTokenizer和maxentpostagger。我自己使用GUInltk.download()下载了它们。对于我的合作者,我当然希望这些东西能够自动下载。我没有在文档中找到任何惯用代码。我是否应该将nltk.data.load('tokenizers/punkt/english.pickle')之类的东西放入代码中?每次运行脚本时都要下载资源吗?我是否要向用户(即我的合作开发者)提供有关正在下载的内容以及为什么需要这么长时间的反馈?那里一定有可以完成这项工作的设备,对吧?:)//编辑解释我的问题:

python - NLTK 无法找到 gs 文件

我正在尝试使用斯坦福自然语言工具包NLTK。安装所需文件后,我开始执行演示代码:http://www.nltk.org/index.html>>>importnltk>>>sentence="""Ateighto'clockonThursdaymorning...Arthurdidn'tfeelverygood.""">>>tokens=nltk.word_tokenize(sentence)>>>tokens['At','eight',"o'clock",'on','Thursday','morning',“亚瑟”、“做过”、“没”、“感觉”、“非常”、“好”、“。”]>>>tagg

python - NLTK 标记化 - 更快的方式?

我有一个接受字符串参数的方法,并使用NLTK将字符串分解为句子,然后分解为单词。然后,它将每个单词转换为小写,最后创建一个包含每个单词出现频率的字典。importnltkfromcollectionsimportCounterdeffreq(string):f=Counter()sentence_list=nltk.tokenize.sent_tokenize(string)forsentenceinsentence_list:words=nltk.word_tokenize(sentence)words=[word.lower()forwordinwords]forwordinwor

python - 如何在python nltk中使用malt解析器

作为我学术项目的一部分,我需要将一堆任意句子解析为依赖图。经过大量搜索后,我找到了可以使用MaltParser及其预训练语法来解析文本的解决方案。我已经从http://www.maltparser.org/mco/mco.html下载了预训练模型(engmalt.linear-1.7.mco).但是我不知道如何使用这个语法文件和麦芽解析器(通过麦芽的python接口(interface))来解析我的句子。我已经下载了最新版本的麦芽解析器(1.7.2)并将其移至“/usr/lib/”importnltk;parser=nltk.parse.malt.MaltParser()txt="Th

python - NLTK 有依赖解析的工具吗?

我正在构建一个NLP应用程序,并且一直在使用StanfordParser进行我的大部分解析工作,但我想开始使用Python。到目前为止,NLTK似乎是最好的选择,但我不知道如何解析语法依赖项。IE。这是斯坦福解析器的一个例子。我希望能够使用原始句子“我正在切换到Python”中的Python在NTLK中生成此内容:nsubj(switching-3,I-1)aux(switching-3,am-2)prep_to(switching-3,Python-5)任何人都可以在正确的方向上插入我解析语法依赖关系吗? 最佳答案 NLTK包括对

python - nltk 模块中的类似方法在不同的机器上会产生不同的结果。为什么?

我已经教授了一些使用Python进行文本挖掘的入门类(class),并且该类(class)使用提供的练习文本尝试了类似的方法。有些学生对text1.similar()的结果与其他学生不同。所有版本等都是一样的。有谁知道为什么会出现这些差异?谢谢。命令行使用的代码。python>>>importnltk>>>nltk.download()#hereyouusethepop-upwindowtodownloadtexts>>>fromnltk.bookimport****IntroductoryExamplesfortheNLTKBook***Loadingtext1,...,text9a

python - nltk 语言模型(ngram)从上下文计算一个词的概率

我正在使用Python和NLTK构建如下语言模型:fromnltk.corpusimportbrownfromnltk.probabilityimportLidstoneProbDist,WittenBellProbDistestimator=lambdafdist,bins:LidstoneProbDist(fdist,0.2)lm=NgramModel(3,brown.words(categories='news'),estimator)#Thankstomiku,Ifixedthisproblemprintlm.prob("word",["Thisisacontextwhichg

python - 要下载什么才能使 nltk.tokenize.word_tokenize 工作?

我将在我的帐户空间配额非常有限的集群上使用nltk.tokenize.word_tokenize。在家里,我通过nltk.download()下载了所有nltk资源,但我发现它需要大约2.5GB。这对我来说似乎有点矫枉过正。您能否建议nltk.tokenize.word_tokenize的最小(或几乎最小)依赖项是什么?到目前为止,我已经看到了nltk.download('punkt')但我不确定它是否足够以及大小是多少。我究竟应该运行什么才能使其正常工作? 最佳答案 你是对的。您需要PunktTokenizer模型。它有13MB,

Python 找不到模块 NLTK

我遵循了这些说明http://www.nltk.org/install.html在我的mac(10.6)上安装nltk模块我已经安装了python2.7,但是当我打开IDLE并键入importnltk时,它给了我这个错误Traceback(mostrecentcalllast):File"",line1,inimportnltkImportError:Nomodulenamednltk问题是模块安装在另一个python版本2.6中。如何在python2.7版中安装该软件包?我尝试了各种答案中建议的一些解决方案,例如我尝试在终端中输入这个exportPYTHONPATH=$PYTHONP