nltk_草庐IT

python - 什么是 ngram 计数以及如何使用 nltk 实现？

我读过一篇论文，它使用ngram计数作为分类器的特征，我想知道这到底是什么意思。示例文本:“Loremipsumdolorsitamet,consetetursadipscingelitr,seddiam”我可以根据此文本创建一元字母组、二元字母组、三元字母组等，我必须在其中定义在哪个“级别”上创建这些一元字母组。“级别”可以是字符、音节、单词、...那么从上面的句子中创建unigrams只会创建一个包含所有单词的列表？创建二元组会导致单词对将彼此跟随的单词组合在一起吗？因此，如果论文谈论ngram计数，它只是简单地从文本中创建unigrams、bigrams、trigrams等，并计

python ngram 39 tokens section nlp nltk

python - 在 NLTK 3.0 中使用 Wordnet 从 Synset 中提取单词

前段时间SO上有人问howtoretrievealistofwordsforagivensynset使用NLTK的wordnet包装器。以下是建议的回复之一:forsynsetinwn.synsets('dog'):printsynset.lemmas[0].name使用NLTK3.0运行此代码会产生TypeError:'instancemethod'objectisnotsubscriptable。我尝试了之前提出的每个解决方案(上面链接页面上描述的每个解决方案)，但每个都会引发错误。因此我想问:是否可以使用NLTK3.0打印同义词集列表中的单词？如果其他人可以就此问题提供任何建议，

单词 Wordnet section code synset python nlp nltk

python - 在 NLTK 3.0 中使用 Wordnet 从 Synset 中提取单词

前段时间SO上有人问howtoretrievealistofwordsforagivensynset使用NLTK的wordnet包装器。以下是建议的回复之一:forsynsetinwn.synsets('dog'):printsynset.lemmas[0].name使用NLTK3.0运行此代码会产生TypeError:'instancemethod'objectisnotsubscriptable。我尝试了之前提出的每个解决方案(上面链接页面上描述的每个解决方案)，但每个都会引发错误。因此我想问:是否可以使用NLTK3.0打印同义词集列表中的单词？如果其他人可以就此问题提供任何建议，

单词 Wordnet section code synset python nlp nltk

python - POS 标记的性能缓慢。我可以做一些预热吗？

我正在使用NLTK对网络请求中的数百条推文进行POS标记。如您所知，Django为每个请求实例化一个请求处理程序。我注意到这一点:对于一个请求(约200条推文)，第一条推文需要约18秒来标记，而所有后续推文需要约120毫秒来标记。我可以做些什么来加快这个过程？我可以执行“预热请求”以便为每个请求加载模块数据吗？classMyRequestHandler(BaseHandler):defread(self,request):#thisrunsforaGETrequest#...inaloop:tokens=nltk.word_tokenize(tweet)tagged=nltk.pos_

缓慢 python section code nltk

python - POS 标记的性能缓慢。我可以做一些预热吗？

我正在使用NLTK对网络请求中的数百条推文进行POS标记。如您所知，Django为每个请求实例化一个请求处理程序。我注意到这一点:对于一个请求(约200条推文)，第一条推文需要约18秒来标记，而所有后续推文需要约120毫秒来标记。我可以做些什么来加快这个过程？我可以执行“预热请求”以便为每个请求加载模块数据吗？classMyRequestHandler(BaseHandler):defread(self,request):#thisrunsforaGETrequest#...inaloop:tokens=nltk.word_tokenize(tweet)tagged=nltk.pos_

缓慢 python section code nltk

python - PyPy 可以与 NLTK 一起使用吗？

PyPy是否与NLTK一起工作，如果是，是否有明显的性能改进，比如贝叶斯分类器？当我们这样做时，是否有任何其他python环境(shedskin等)提供比cpython更好的nlkt性能？最佳答案根据freenode上#pypy上的某个人的说法，至少NLTK的某些部分确实可以与PyPy一起工作并且有一些性能提升。您进行过任何测试吗？只需从pypy.org/download.html下载PyPy，而不是“timepythonyourscript.pydata.txt”，键入“timepypyyourscript.pydata.tx

python PyPy section nltk

python - PyPy 可以与 NLTK 一起使用吗？

PyPy是否与NLTK一起工作，如果是，是否有明显的性能改进，比如贝叶斯分类器？当我们这样做时，是否有任何其他python环境(shedskin等)提供比cpython更好的nlkt性能？最佳答案根据freenode上#pypy上的某个人的说法，至少NLTK的某些部分确实可以与PyPy一起工作并且有一些性能提升。您进行过任何测试吗？只需从pypy.org/download.html下载PyPy，而不是“timepythonyourscript.pydata.txt”，键入“timepypyyourscript.pydata.tx

python PyPy section nltk

python - NLTK punkt 的训练数据格式

我想运行nltkPunkt来拆分句子。没有训练模型所以我单独训练模型，但我不确定我使用的训练数据格式是否正确。我的训练数据是每行一个句子。我找不到关于此的任何文档，只有这个线程(https://groups.google.com/forum/#!topic/nltk-users/bxIEnmgeCSM)阐明了一些关于训练数据格式的信息。NLTKPunkt句子分词器的正确训练数据格式是什么？最佳答案是的，Punkttokenizer是神奇的无监督句子边界检测。而且作者的姓氏也很酷，KissandStrunk(2006).这个想法是

训练 python code punkt nlp nltk

python - NLTK punkt 的训练数据格式

我想运行nltkPunkt来拆分句子。没有训练模型所以我单独训练模型，但我不确定我使用的训练数据格式是否正确。我的训练数据是每行一个句子。我找不到关于此的任何文档，只有这个线程(https://groups.google.com/forum/#!topic/nltk-users/bxIEnmgeCSM)阐明了一些关于训练数据格式的信息。NLTKPunkt句子分词器的正确训练数据格式是什么？最佳答案是的，Punkttokenizer是神奇的无监督句子边界检测。而且作者的姓氏也很酷，KissandStrunk(2006).这个想法是

训练 python code punkt nlp nltk

python - 如何使用 NLTK 从归纳语法生成句子？

我有一个(大)已解析句子列表(使用斯坦福解析器解析)，例如，句子“Nowyoucanbeentertained”具有以下树:(ROOT(S(ADVP(RBNow))(,,)(NP(PRPyou))(VP(MDcan)(VP(VBbe)(VP(VBNentertained))))(..)))我正在使用句子树集来使用nltk归纳语法:importnltk#...foreachsentencetreet,additsproductiontoallProductionsallProductions+=t.productions()#InducethegrammarS=nltk.Nontermi

句子 python code section nlp nltk