NLTK

python - 如何在gensim中使用TaggedDocument？

我有两个目录，我想从中读取它们的文本文件并标记它们，但我不知道如何通过TaggedDocument执行此操作。我认为它可以作为TaggedDocument([Strings],[Labels])工作，但这显然不起作用。这是我的代码:fromgensimimportmodelsfromgensim.models.doc2vecimportTaggedDocumentimportutilitiesasutilimportosfromsklearnimportsvmfromnltk.tokenizeimportsent_tokenizeCogPath="./FixedCog/"NotCogP

TaggedDocument 何在 39 34 python nltk gensim word2vec doc2vec

python - 在字符串中查找字符/单词的周围句子

我正在尝试使用python从包含给定子字符串的字符串中获取句子。我可以访问字符串(学术摘要)和带有开始和结束索引的亮点列表。例如:{abstract:"...longabstracthere..."highlights:[{concept:'aword',start:1,end:10}{concept:'cancer',start:123,end:135}]}我遍历每个突出显示，在摘要中找到它的起始索引(结束并不重要，因为我只需要在句子中找到一个位置)，然后以某种方式需要识别索引出现在的句子.我能够使用nltk.tonenize.sent_tokenize将摘要标记化为句子，但这样做会

句子单词 code sentence strong python regex nltk

python - NLTK:如何遍历名词短语以返回字符串列表？

在NLTK中，如何遍历已解析的句子以返回名词短语字符串列表？我有两个目标:(1)创建名词短语列表，而不是使用“traverse()”方法打印它们。我目前使用StringIO来记录现有traverse()方法的输出。这不是一个可接受的解决方案。(2)反解析名词短语字符串，这样:'(NPMichael/NNPJackson/NNP)'变成'MichaelJackson'。NLTK中有反解析的方法吗？NLTK文档建议使用traverse()来查看名词短语，但是如何在这种递归方法中捕获“t”以便生成字符串名词短语列表？fromnltk.tagimportpos_tagdeftraverse(t

短语 python section tagged_sent parsing recursion nltk traversal

python - 默认的 nltk 词性标记集是什么？

在试验NLTK词性标注时，我注意到调用nltk.pos_tag的输出中有很多VBP标记。我注意到这个标签不在BrownCorpus词性标签集中。然而，它是UPenn标签集的一部分。nltk默认使用什么标签集？我在官方文档或apidocs中找不到这个。最佳答案 Ntlk使用PennTreebank标签集。看看这个链接http://nltk.org/api/nltk.tag.html 关于python-默认的nltk词性标记集是什么？，我们在StackOverflow上找到一个类似的问题：

python nltk section code nlp

python - 如何解析这种格式(Praat TextGrid)

TextGrid是Praat程序使用的“分割”文件。我想编写一个解析器来验证数据。我的问题是:您将如何为这种格式编写解析器？逐行阅读还是其他？这是已知格式吗？Filetype="ooTextFile"Objectclass="TextGrid"xmin=0xmax=93.0538775510204tiers?size=3item[]:item[1]:class="IntervalTier"name="diph"xmin=0xmax=93.0538775510204intervals:size=65intervals[1]:xmin=0xmax=1.300090702947846text

TextGrid python nltk_contrib nltk section parsing text

python - 如何从 Python 列表中删除日期

我有一个标记化文本列表(list_of_words)，看起来像这样:list_of_words=['08/20/2014','10:04:27','pm','complet','vendor','per','mfg/recommend','08/20/2014','10:04:27','pm','complet',...]我正试图从此列表中删除所有日期和时间实例。我试过使用.remove()函数，但无济于事。我试过将通配符(例如“../../....”)传递给我用来排序的停用词列表，但这没有用。我最终尝试编写以下代码:forlineinlist_of_words:ifre.search

python 39 code strong regex nltk

python - 从 Python 的 NLTK 中的自定义文本生成随机句子？

我在使用Python下的NLTK时遇到问题，特别是.generate()方法。generate(self,length=100)Printrandomtext,generatedusingatrigramlanguagemodel.Parameters:*length(int)-Thelengthoftexttogenerate(default=100)这是我正在尝试的简化版本。importnltkwords='Thequickbrownfoxjumpsoverthelazydog'tokens=nltk.word_tokenize(words)text=nltk.Text(token

自定句子 self words lazy python random nltk

python - 使用 Python NLTK 对 trigrams 进行 Kneser-Ney 平滑

我正在尝试使用PythonNLTK通过Kneser-Ney平滑来平滑一组n-gram概率。不幸的是，整个文档相当稀疏。我正在尝试做的是:我将文本解析为三元组列表。从这个列表中，我创建了一个FreqDist，然后使用该FreqDist来计算KN平滑分布。不过我很确定，结果是完全错误的。当我对各个概率求和时，我得到的结果远远超过1。以这个代码示例为例:importnltkngrams=nltk.trigrams("Whatapieceofworkisman!hownobleinreason!howinfiniteinfaculty!in\formandmovinghowexpressand

Kneser-Ney trigrams 39 confess 0.00657894736842 python nlp nltk smoothing

python - python中word的所有同义词？

这个问题在这里已经有了答案:HowtogetsynonymsfromnltkWordNetPython(8个答案)关闭6年前。在python中获取一个词的同义词的代码是这样的:fromnltk.corpusimportwordnetdog=wordnet.synset('dog.n.01')printdog.lemma_names>>['dog','domestic_dog','Canis_familiaris']但是dog.n.02给出了不同的词。对于任何单词，我不知道可能有多少个单词。我怎样才能返回一个词的所有同义词？

python 同义词 section notice dog nltk wordnet

python - 使用 NLTK 创建新语料库

我认为我的标题的答案通常是去阅读文档，但我浏览了NLTKbook但它没有给出答案。我是Python的新手。我有一堆.txt文件，我希望能够使用NLTK为语料库nltk_data提供的语料库函数。我已经尝试过PlaintextCorpusReader但我无法获得更多:>>>importnltk>>>fromnltk.corpusimportPlaintextCorpusReader>>>corpus_root='./'>>>newcorpus=PlaintextCorpusReader(corpus_root,'.*')>>>newcorpus.words()如何使用punkt分割new

语料 python corpus newcorpus code nlp nltk

1 2 345 6 7