nltk_contrib_草庐IT

python - NLTK:语料库级 bleu 与句子级 BLEU 分数

我已经在python中导入了nltk来计算Ubuntu上的BLEU分数。我了解句子级BLEU分数的工作原理，但我不了解语料库级BLEU分数的工作原理。下面是我的语料库级BLEU分数代码:importnltkhypothesis=['This','is','cat']reference=['This','is','a','cat']BLEUscore=nltk.translate.bleu_score.corpus_bleu([reference],[hypothesis],weights=[1])print(BLEUscore)出于某种原因，上述代码的bleu分数为0。我期望语料库级别

python - 将模块从 opencv_contrib 添加到 OpenCV

我正在尝试将opencv_contrib中的xfeatures2d模块添加到现有的OpenCV/Python项目中。我已经从therepo下载了最新版本的模块，并使用以下附加参数再次构建OpenCV:OPENCV_EXTRA_MODULES_PATH=/path/to/opencv_contrib-master/modulesBUILD_opencv_xfeatures2d=ON构建日志摘录:--Installing:/usr/local/lib/python2.7/site-packages/cv2.so--Installing:/usr/local/lib/python3.4/si

python - 我如何使用 NLTK 的默认分词器来获取跨度而不是字符串？

NLTK的默认分词器nltk.word_tokenizer链接两个分词器，一个句子分词器，然后是一个对句子进行操作的单词分词器。它开箱即用，效果非常好。>>>nltk.word_tokenize("(Dr.Edwardsismyfriend.)")['(','Dr.','Edwards','is','my','friend','.',')']我想使用相同的算法，只是让它返回原始字符串中的偏移量元组而不是字符串标记。我所说的偏移量是指可以作为原始字符串索引的2-ples。例如这里我有>>>s="(Dr.Edwardsismyfriend.)">>>s.token_spans()[(0,1

python - 特定单词的 NLTK 搭配

我知道如何使用NLTK获取二元组和三元组搭配，并将它们应用到我自己的语料库中。代码如下。不过我不确定(1)如何获取特定单词的搭配？(2)NLTK是否有基于对数似然比的配置度量？importnltkfromnltk.collocationsimport*fromnltk.tokenizeimportword_tokenizetext="thisisafoobarbarblacksheepfoobarbarblacksheepfoobarbarblacksheepshepbarbarblacksentence"trigram_measures=nltk.collocations.Trigr

python - 使用 nltk 标记单词时防止在撇号处 split

我正在使用nltk将句子拆分为单词。例如nltk.word_tokenize("Thecodedidn'twork!")->['The','code','did',"n't",'work','!']标记化在分割单词边界方面效果很好[即splittingpunctuationfromwords]，但有时过度拆分，单词末尾的修饰符被视为单独的部分。例如，didn't被拆分为did和n't部分，i've被拆分我和已经。显然，这是因为这些词在nltk使用的原始语料库中被一分为二，在某些情况下可能是可取的。是否有任何内置方法可以覆盖此行为？可能以类似于nltk的MWETokenizer能够将多个

python - nltk.download() 在 OS X 上挂起

nltk.download()在OSX上挂起。这是发生的事情:$python>>>Python2.7.2(default,Oct112012,20:14:37)>>>[GCC4.2.1CompatibleAppleClang4.0(tags/Apple/clang-418.0.60)]ondarwin>>>importnltk>>>nltk.download()showinginfohttp://nltk.github.com/nltk_data/在那之后，它完全卡住了。我根据thentlkinstallpage安装了所有东西.我在OSX10.8.3上。在我的Linux机器上，它可以正

python - NLTK 中的 Ngram 模型和困惑

为了说明我的问题，我想训练和测试/比较几种(神经)语言模型。为了专注于模型而不是数据准备，我选择使用nltk的Brown语料库并训练nltk提供的Ngrams模型作为基线(与其他LM进行比较)。所以我的第一个问题实际上是关于我发现可疑的nltkNgram模型的行为。由于代码很短，我将其粘贴在这里:importnltkprint"...build"brown=nltk.corpus.browncorpus=[word.lower()forwordinbrown.words()]#Trainon95%fthecorpusandtestontherestspl=95*len(corpus)/

python - scikits学习和nltk : Naive Bayes classifier performance highly different

我正在比较两个朴素贝叶斯分类器:一个fromNLTK还有一个fromscikit-learn.我正在处理多类分类问题(3类:正(1)、负(-1)和中性(0))。在不执行任何特征选择(即使用所有可用特征)的情况下，使用包含70,000个实例的训练数据集(带有噪声标记，实例分布为17%正、4%负和78%中性)，我训练两个分类器，第一个是nltk.NaiveBayesClassifier，第二个是sklearn.naive_bayes.MultinomialNB(fit_prior=True)。训练后，我在30,000个实例的测试集上评估了分类器，得到以下结果:**NLTK'sNaiveBa

python - 如何使用 python 和 NLTK 从 Penn Treebank 获取一组语法规则？

我对NLTK和Python还很陌生。我一直在使用示例中给出的玩具语法创建句子解析，但我想知道是否有可能使用从PennTreebank的一部分学习的语法，而不是仅仅编写我自己的或使用玩具语法？(我在Mac上使用Python2.7)非常感谢最佳答案如果你想要一个精确捕获NLTK附带的PennTreebank样本的语法，你可以这样做，假设你已经下载了NLTK的Treebank数据(见下面的评论):importnltkfromnltk.corpusimporttreebankfromnltk.grammarimportContextFr

python - 如何在 NLTK 3.0 中生成随机文本？

nltk.text.Text的generate方法似乎在NLTK3.0中被移除了。例如:>>>bible=nltk.corpus.gutenberg.words(u'bible-kjv.txt')>>>bibleText=nltk.Text(bible)>>>bibleText.generate()Traceback(mostrecentcalllast):File"",line1,inAttributeError:'Text'objecthasnoattribute'generate'可能只是我记错了怎么操作，但是我在网上能找到的似乎都支持上述方法。知道我做错了什么吗？