草庐IT

python - 尝试下载 nltk 数据时出现 405 错误

当我尝试下面的代码时python-c"importnltk;nltk.download('punkt');nltk.download('averaged_perceptron_tagger');nltk.download('maxent_treebank_pos_tagger');nltk.download('wordnet')"控制台显示[nltk_data]Errorloadingpunkt:HTTPError405:Notallowed.[nltk_data]Errorloadingaveraged_perceptron_tagger:HTTPError405:[nltk_dat

python - NLTK 其他语言词性标注器

我在python中使用nltk模块,我正在尝试将其用于POS标记不同的语言。有很多关于如何使用不同语言训练您自己的词性标注器的信息-是否有针对不同语言的真正强大且经过测试的NLTK词性标注器的数据库?(使用pickle模块导出词性标注器非常容易) 最佳答案 您可以在以下位置找到强大且构建良好且经过测试的NLTK语料库http://www.nltk.org/nltk_data/你可能会找到其他语料库,但这些是最好的 关于python-NLTK其他语言词性标注器,我们在StackOverfl

python - 双引号的 NLTK 单词标记化行为令人困惑

importnltk>>>nltk.__version__'3.0.4'>>>nltk.word_tokenize('"')['``']>>>nltk.word_tokenize('""')['``','``']>>>nltk.word_tokenize('"A"')['``','A',"''"]看看它如何将"更改为双``和''?这里发生了什么?为什么要改变性格?有解决办法吗?因为稍后我需要搜索字符串中的每个标记。Python2.7.6是否有任何不同。 最佳答案 长话短说:nltk.word_tokenize从"->``更改开始双引

python - 从 NLTK 格式分块斯坦福命名实体识别器 (NER) 输出

我正在使用NLTK中的NER在句子中查找人物、地点和组织。我能够产生这样的结果:[(u'Remaking',u'O'),(u'The',u'O'),(u'Republican',u'ORGANIZATION'),(u'Party',u'ORGANIZATION')]是否可以通过使用它来将事物组合在一起?我想要的是这样的:u'Remaking'/u'O',u'The'/u'O',(u'Republican',u'Party')/u'ORGANIZATION'谢谢! 最佳答案 它看起来很长,但它确实有效:ner_output=[(u'R

python - NLTK 无法找到 stanford-postagger.jar!设置 CLASSPATH 环境变量

我正在从事一个需要我使用nltk和python标记token的项目。所以我想用这个。但是提出了一些问题。我经历了很多其他已经提出的问题和其他论坛,但我仍然无法解决这个问题。问题是当我尝试执行以下操作时:从nltk.tag导入StanfordPOSTaggerst=StanfordPOSTagger('english-bidirectional-distsim.tagger')我得到以下信息:Traceback(mostrecentcalllast):`File"",line1,inst=StanfordPOSTagger('english-bidirectional-distsim.t

python - nltk StanfordNERTagger : NoClassDefFoundError: org/slf4j/LoggerFactory (In Windows)

注意:我使用Python2.7作为Anaconda发行版的一部分。我希望这不是nltk3.1的问题。我正在尝试将nltk用于NER作为importnltkfromnltk.tag.stanfordimportStanfordNERTagger#st=StanfordNERTagger('stanford-ner/all.3class.distsim.crf.ser.gz','stanford-ner/stanford-ner.jar')st=StanfordNERTagger('english.all.3class.distsim.crf.ser.gz')printst.tag(str

python - nltk中句子的概率树同时使用前瞻和回顾依赖

nltk或其他任何NLP工具是否允许根据输入句子构建概率树从而将输入文本的语言模型存储在字典树中,以下example给出了粗略的想法,但我需要相同的功能,这样一个词Wt不仅可以根据过去的输入词(历史)Wt-n进行概率建模,还可以像Wt+m这样的前瞻词进行建模。此外,回溯和前瞻字数也应为2或更多,即双字母或更多。python中是否有任何其他库可以实现此目的?fromcollectionsimportdefaultdictimportnltkimportmathngram=defaultdict(lambda:defaultdict(int))corpus="Thecatiscute.He

python - 现在删除的模块 'nltk.model.NGramModel' 是否有替代品?

我已经连续两天尝试寻找替代方案,但找不到任何相关内容。我基本上是在尝试获得合成句子的概率分数(通过替换从语料库中挑选的原始句子中的一些单词来合成)。我尝试了搭配,但我得到的分数不是很有帮助。所以我尝试使用语言模型概念,却发现看似有用的模块“模型”由于一些错误已从NLTK中删除。如果有人可以让我知道在python中获得ngram模型实现的替代方法,或者更好的是,建议我一些其他方法来解决句子“评分”的问题,那就太好了。 最佳答案 根据thisopenissueonthenltkrepo,NGramModel由于一些错误目前不在maste

python - NLTK 认为命令是名词

我在食谱上使用pos_tagger。我遇到的一个问题是pos_tagger返回命令式时态的单词是名词,它们不应该是动词吗?例如:随着输入:combine11/2cupsfloud,3/4cupsugar,saltandbakingpowder输出是:[('combine','NN'),('1','CD'),('1/2','CD'),('cups','NNS'),('floud','VBD'),(',',','),('3/4','CD'),('cup','NN'),('sugar','NN'),(',',','),('salt','NN'),('and','CC'),('baking',

python - nltk wordpunct_tokenize 与 word_tokenize

有谁知道nltk的wordpunct_tokenize和word_tokenize的区别?我正在使用nltk=3.2.4并且wordpunct_tokenize的文档字符串中没有任何内容可以解释差异。我在nltk的文档中也找不到此信息(也许我没有在正确的地方搜索!)。我原以为第一个会去掉标点符号等,但事实并非如此。 最佳答案 wordpunct_tokenize基于简单的正则表达式标记化。它被定义为wordpunct_tokenize=WordPunctTokenizer().tokenize你可以找到here.基本上它使用正则表达