NLTK

python - 在 NLTK 和 Python 中创建自定义分类语料库

我遇到了一些与正则表达式和Python中的CategorizedPlaintextCorpusReader有关的问题。我想创建一个自定义分类语料库并在其上训练一个朴素贝叶斯分类器。我的问题如下:我想要两个类别，“pos”和“neg”。正文件都在一个目录中，main_dir/pos/*.txt，负文件在一个单独的目录中，main_dir/neg/*.txt。如何使用CategorizedPlaintextCorpusReader加载和标记pos目录中的所有正文件，并对负文件执行相同的操作？注意:该设置与Movie_reviews语料库(~nltk_data\corpora\movie_r

中创自定 code 语料 section python regex nlp nltk

java - 使用 NLTK 使用 MaltParser 解析多个句子

有很多与MaltParser和/或NLTK相关的问题:MaltParserthrowingclassnotfoundexceptionHowtousemaltparserinpythonnltkMaltParserNotWorkinginPythonNLTKNLTKMaltParserwon'tparseDependencyparserusingNLTKandMaltParserDependencyParsingusingMaltParserandNLTKParsingwithMaltParserengmaltParserawtextwithMaltParserinJava现在，NLT

句子 MaltParser 39 code java python parsing nlp nltk

python - python 中的快速/优化 N-gram 实现

哪个ngram实现在python中最快？我尝试分析nltk与scott的zip(http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/):fromnltk.utilimportngramsasnltkngramimportthis,timedefzipngram(text,n=2):returnzip(*[text.split()[i:]foriinrange(n)])text=this.sstart=time.time()nltkngram(text.split(),n=2)prin

python N-gram zipngram text import nlp nltk information-retrieval

python - nltk 标记化和收缩

我正在使用nltk对文本进行标记，只是将句子提供给wordpunct_tokenizer。这会拆分收缩(例如，'don't'到'don'+"'"+'t')，但我想将它们保留为一个词。我正在改进我的方法以更精确地对文本进行标记化，因此除了简单的标记化之外，我还需要更深入地研究nltk标记化模块。我猜这很常见，我希望得到其他人的反馈，他们之前可能不得不处理过该特定问题。编辑:是的，我知道这是一个笼统的、乱七八糟的问题此外，作为nlp的新手，我是否需要担心收缩？编辑:SExprTokenizer或TreeBankWordTokenizer似乎可以满足我现在的需求。

python nltk section text-processing stackoverflow nlp

python - 如何使用 NLTK 和 Python 标记和分块法语文本？

我在一个JSON文件中有30,000多篇法语文章。我想对个别文章和整篇文章进行一些文本分析。在我走得更远之前，我先从简单的目标开始:识别重要实体(人、地点、概念)发现这些实体的重要性(~=频率)随时间的显着变化(使用文章序列号作为时间的代表)到目前为止我采取的步骤:将数据导入python列表:importjsonjson_articles=open('articlefile.json')articlelist=json.load(json_articles)选择了一篇文章进行测试，并将正文文本连接成一个字符串:txt=''.join(data[10000]['body'])加载法语句子

法语 python section li nlp nltk

python - 调用 NLTK 的索引 - 如何在使用的单词之前/之后获取文本？

我想知道concordace返回的实例之后是什么文本。因此，例如，如果您查看他们在'SearchingText'section中给出的示例，他们得到了单词“monstrous”的索引。您如何获得在monstrous实例之后立即出现的单词？最佳答案 importnltkimportnltk.bookasbooktext1=book.text1c=nltk.ConcordanceIndex(text1.tokens,key=lambdas:s.lower())print([text1.tokens[offset+1]foroffset

何在单词 code concordance 39 python nltk

python - 如何使用 Stanford NLP Tagger 和 NLTK 提高速度

有什么方法可以更高效地使用StandfordTagger？每次调用NLTK的包装器都会为每个分析的字符串启动一个新的java实例，这非常非常慢，尤其是在使用更大的外语模型时...http://www.nltk.org/api/nltk.tag.html#module-nltk.tag.stanford 最佳答案找到解决方案。可以在servlet模式下运行POSTagger，然后通过HTTP连接到它。完美。http://nlp.stanford.edu/software/pos-tagger-faq.shtml#d例子在后台启动服务

高速度 Stanford strong section python nltk stanford-nlp

Python - 使用逐点互信息进行情感分析

from__future__importdivisionimporturllibimportjsonfrommathimportlogdefhits(word1,word2=""):query="http://ajax.googleapis.com/ajax/services/search/web?v=1.0&q=%s"ifword2=="":results=urllib.urlopen(query%word1)else:results=urllib.urlopen(query%word1+""+"AROUND(10)"+""+word2)json_res=json.loads(res

互信 Python 39 word sentence nlp nltk sentiment-analysis

python - NLTK:语料库级 bleu 与句子级 BLEU 分数

我已经在python中导入了nltk来计算Ubuntu上的BLEU分数。我了解句子级BLEU分数的工作原理，但我不了解语料库级BLEU分数的工作原理。下面是我的语料库级BLEU分数代码:importnltkhypothesis=['This','is','cat']reference=['This','is','a','cat']BLEUscore=nltk.translate.bleu_score.corpus_bleu([reference],[hypothesis],weights=[1])print(BLEUscore)出于某种原因，上述代码的bleu分数为0。我期望语料库级别

语料句子 code bleu nltk python machine-learning nlp

python - 我如何使用 NLTK 的默认分词器来获取跨度而不是字符串？

NLTK的默认分词器nltk.word_tokenizer链接两个分词器，一个句子分词器，然后是一个对句子进行操作的单词分词器。它开箱即用，效果非常好。>>>nltk.word_tokenize("(Dr.Edwardsismyfriend.)")['(','Dr.','Edwards','is','my','friend','.',')']我想使用相同的算法，只是让它返回原始字符串中的偏移量元组而不是字符串标记。我所说的偏移量是指可以作为原始字符串索引的2-ples。例如这里我有>>>s="(Dr.Edwardsismyfriend.)">>>s.token_spans()[(0,1

跨度 python code tokenize section nltk

5 6 789 10 11