我已经在python中导入了nltk来计算Ubuntu上的BLEU分数。我了解句子级BLEU分数的工作原理,但我不了解语料库级BLEU分数的工作原理。下面是我的语料库级BLEU分数代码:importnltkhypothesis=['This','is','cat']reference=['This','is','a','cat']BLEUscore=nltk.translate.bleu_score.corpus_bleu([reference],[hypothesis],weights=[1])print(BLEUscore)出于某种原因,上述代码的bleu分数为0。我期望语料库级别
有一个测试句和一个引用句。我如何编写一个Python脚本,以自动机器翻译评估中使用的BLEU度量的形式测量这两个句子之间的相似性? 最佳答案 BLEU分数由两部分组成,修改后的精度和简洁性惩罚。详情可见paper.您可以使用nltk.align.bleu_scoreNLTK中的模块。一个代码示例如下所示:importnltkhypothesis=['It','is','a','cat','at','room']reference=['It','is','a','cat','inside','the','room']#theremay