草庐IT

nltk-trainer

全部标签

python - Python NLTK 中的 Vader 'compound' 极性分数是如何计算的?

我正在使用VaderSentimentAnalyzer来获取极性分数。我之前使用了正/负/中性的概率分数,但我刚刚意识到“复合”分数,范围从-1(最负)到1(最正)将提供一个单一的极性度量。我想知道“复合”分数是如何计算的。是从[pos,neu,neg]向量计算的吗? 最佳答案 VADER算法将情绪分数输出到4类情绪https://github.com/nltk/nltk/blob/develop/nltk/sentiment/vader.py#L441:否定:否定neu:中性pos:正面compound:复合(即总分)让我们看一下

python - 使用 python 的 NLTK 计算动词、名词和其他词性

我有多个文本,我想根据它们对不同词性(如名词和动词)的使用来创建它们的配置文件。基本上,我需要计算每个词性使用了多少次。我已标记文本,但不知道如何进一步:tokens=nltk.word_tokenize(text.lower())text=nltk.Text(tokens)tags=nltk.pos_tag(text)如何将每个词性的计数保存到变量中? 最佳答案 pos_tag方法会返回一个(token,tag)对的列表:tagged=[('the','DT'),('dog','NN'),('sees','VB'),('the',

python - 使用 python 的 NLTK 计算动词、名词和其他词性

我有多个文本,我想根据它们对不同词性(如名词和动词)的使用来创建它们的配置文件。基本上,我需要计算每个词性使用了多少次。我已标记文本,但不知道如何进一步:tokens=nltk.word_tokenize(text.lower())text=nltk.Text(tokens)tags=nltk.pos_tag(text)如何将每个词性的计数保存到变量中? 最佳答案 pos_tag方法会返回一个(token,tag)对的列表:tagged=[('the','DT'),('dog','NN'),('sees','VB'),('the',

python - NLTK - Bigram 的计数频率

这是一个Python和NLTK新手问题。我想找出同时出现10次以上且PMI最高的二元组的频率。为此,我正在使用此代码defget_list_phrases(text):tweet_phrases=[]fortweetintext:tweet_words=tweet.split()tweet_phrases.extend(tweet_words)bigram_measures=nltk.collocations.BigramAssocMeasures()finder=BigramCollocationFinder.from_words(tweet_phrases,window_size=

python - NLTK - Bigram 的计数频率

这是一个Python和NLTK新手问题。我想找出同时出现10次以上且PMI最高的二元组的频率。为此,我正在使用此代码defget_list_phrases(text):tweet_phrases=[]fortweetintext:tweet_words=tweet.split()tweet_phrases.extend(tweet_words)bigram_measures=nltk.collocations.BigramAssocMeasures()finder=BigramCollocationFinder.from_words(tweet_phrases,window_size=

python - 使用 NLTK 对阿拉伯语单词进行标记

我正在使用NLTKword_tokenizer将句子拆分为单词。我要标记这句话:في_بيتناكلشيلماتحتاجهيضيع...ادورعلىشاحنفجأةيختفي..لدرجةانياسوينفسيادورشيء我写的代码是:importreimportnltklex=u"في_بيتناكلشيلماتحتاجهيضيع...ادورعلىشاحنفجأةيختفي..لدرجةانياسوينفسيادورشيء"wordsArray=nltk.word_tokenize(lex)print"".join(wordsArray)问题是word_tokenize函数没有

python - 使用 NLTK 对阿拉伯语单词进行标记

我正在使用NLTKword_tokenizer将句子拆分为单词。我要标记这句话:في_بيتناكلشيلماتحتاجهيضيع...ادورعلىشاحنفجأةيختفي..لدرجةانياسوينفسيادورشيء我写的代码是:importreimportnltklex=u"في_بيتناكلشيلماتحتاجهيضيع...ادورعلىشاحنفجأةيختفي..لدرجةانياسوينفسيادورشيء"wordsArray=nltk.word_tokenize(lex)print"".join(wordsArray)问题是word_tokenize函数没有

python - 用于情感分析的 nltk NaiveBayesClassifier 训练

我正在使用Python中的句子训练NaiveBayesClassifier,它给了我下面的错误。我不明白错误可能是什么,任何帮助都会很好。我尝试了许多其他输入格式,但错误仍然存​​在。代码如下:fromtext.classifiersimportNaiveBayesClassifierfromtext.blobimportTextBlobtrain=[('Ilovethissandwich.','pos'),('Thisisanamazingplace!','pos'),('Ifeelverygoodaboutthesebeers.','pos'),('Thisismybestwork

python - 用于情感分析的 nltk NaiveBayesClassifier 训练

我正在使用Python中的句子训练NaiveBayesClassifier,它给了我下面的错误。我不明白错误可能是什么,任何帮助都会很好。我尝试了许多其他输入格式,但错误仍然存​​在。代码如下:fromtext.classifiersimportNaiveBayesClassifierfromtext.blobimportTextBlobtrain=[('Ilovethissandwich.','pos'),('Thisisanamazingplace!','pos'),('Ifeelverygoodaboutthesebeers.','pos'),('Thisismybestwork

python - 了解二元组和三元组的 NLTK 搭配评分

背景:我正在尝试比较成对的单词,以查看在美国英语中哪对单词比另一对单词“更有可能出现”。我的计划是/曾经是使用NLTK中的搭配工具对单词对进行评分,得分较高的对最有可能。方法:我使用NLTK在Python中编写了以下代码(为简洁起见,删除了几个步骤和导入):bgm=nltk.collocations.BigramAssocMeasures()finder=BigramCollocationFinder.from_words(tokens)scored=finder.score_ngrams(bgm.likelihood_ratio)printscored结果:然后,我使用2个单词对检查