草庐IT

python - 如何在gensim中使用TaggedDocument?

我有两个目录,我想从中读取它们的文本文件并标记它们,但我不知道如何通过TaggedDocument执行此操作。我认为它可以作为TaggedDocument([Strings],[Labels])工作,但这显然不起作用。这是我的代码:fromgensimimportmodelsfromgensim.models.doc2vecimportTaggedDocumentimportutilitiesasutilimportosfromsklearnimportsvmfromnltk.tokenizeimportsent_tokenizeCogPath="./FixedCog/"NotCogP

python - 在字符串中查找字符/单词的周围句子

我正在尝试使用python从包含给定子字符串的字符串中获取句子。我可以访问字符串(学术摘要)和带有开始和结束索引的亮点列表。例如:{abstract:"...longabstracthere..."highlights:[{concept:'aword',start:1,end:10}{concept:'cancer',start:123,end:135}]}我遍历每个突出显示,在摘要中找到它的起始索引(结束并不重要,因为我只需要在句子中找到一个位置),然后以某种方式需要识别索引出现在的句子.我能够使用nltk.tonenize.sent_tokenize将摘要标记化为句子,但这样做会

python - NLTK:如何遍历名词短语以返回字符串列表?

在NLTK中,如何遍历已解析的句子以返回名词短语字符串列表?我有两个目标:(1)创建名词短语列表,而不是使用“traverse()”方法打印它们。我目前使用StringIO来记录现有traverse()方法的输出。这不是一个可接受的解决方案。(2)反解析名词短语字符串,这样:'(NPMichael/NNPJackson/NNP)'变成'MichaelJackson'。NLTK中有反解析的方法吗?NLTK文档建议使用traverse()来查看名词短语,但是如何在这种递归方法中捕获“t”以便生成字符串名词短语列表?fromnltk.tagimportpos_tagdeftraverse(t

python - 默认的 nltk 词性标记集是什么?

在试验NLTK词性标注时,我注意到调用nltk.pos_tag的输出中有很多VBP标记。我注意到这个标签不在BrownCorpus词性标签集中。然而,它是UPenn标签集的一部分。nltk默认使用什么标签集?我在官方文档或apidocs中找不到这个。 最佳答案 Ntlk使用PennTreebank标签集。看看这个链接http://nltk.org/api/nltk.tag.html 关于python-默认的nltk词性标记集是什么?,我们在StackOverflow上找到一个类似的问题:

python - 如何解析这种格式(Praat TextGrid)

TextGrid是Praat程序使用的“分割”文件。我想编写一个解析器来验证数据。我的问题是:您将如何为这种格式编写解析器?逐行阅读还是其他?这是已知格式吗?Filetype="ooTextFile"Objectclass="TextGrid"xmin=0xmax=93.0538775510204tiers?size=3item[]:item[1]:class="IntervalTier"name="diph"xmin=0xmax=93.0538775510204intervals:size=65intervals[1]:xmin=0xmax=1.300090702947846text

python - 如何从 Python 列表中删除日期

我有一个标记化文本列表(list_of_words),看起来像这样:list_of_words=['08/20/2014','10:04:27','pm','complet','vendor','per','mfg/recommend','08/20/2014','10:04:27','pm','complet',...]我正试图从此列表中删除所有日期和时间实例。我试过使用.remove()函数,但无济于事。我试过将通配符(例如“../../....”)传递给我用来排序的停用词列表,但这没有用。我最终尝试编写以下代码:forlineinlist_of_words:ifre.search

python - 从 Python 的 NLTK 中的自定义文本生成随机句子?

我在使用Python下的NLTK时遇到问题,特别是.generate()方法。generate(self,length=100)Printrandomtext,generatedusingatrigramlanguagemodel.Parameters:*length(int)-Thelengthoftexttogenerate(default=100)这是我正在尝试的简化版本。importnltkwords='Thequickbrownfoxjumpsoverthelazydog'tokens=nltk.word_tokenize(words)text=nltk.Text(token

python - 使用 Python NLTK 对 trigrams 进行 Kneser-Ney 平滑

我正在尝试使用PythonNLTK通过Kneser-Ney平滑来平滑一组n-gram概率。不幸的是,整个文档相当稀疏。我正在尝试做的是:我将文本解析为三元组列表。从这个列表中,我创建了一个FreqDist,然后使用该FreqDist来计算KN平滑分布。不过我很确定,结果是完全错误的。当我对各个概率求和时,我得到的结果远远超过1。以这个代码示例为例:importnltkngrams=nltk.trigrams("Whatapieceofworkisman!hownobleinreason!howinfiniteinfaculty!in\formandmovinghowexpressand

python - python中word的所有同义词?

这个问题在这里已经有了答案:HowtogetsynonymsfromnltkWordNetPython(8个答案)关闭6年前。在python中获取一个词的同义词的代码是这样的:fromnltk.corpusimportwordnetdog=wordnet.synset('dog.n.01')printdog.lemma_names>>['dog','domestic_dog','Canis_familiaris']但是dog.n.02给出了不同的词。对于任何单词,我不知道可能有多少个单词。我怎样才能返回一个词的所有同义词?

python - 使用 NLTK 创建新语料库

我认为我的标题的答案通常是去阅读文档,但我浏览了NLTKbook但它没有给出答案。我是Python的新手。我有一堆.txt文件,我希望能够使用NLTK为语料库nltk_data提供的语料库函数。我已经尝试过PlaintextCorpusReader但我无法获得更多:>>>importnltk>>>fromnltk.corpusimportPlaintextCorpusReader>>>corpus_root='./'>>>newcorpus=PlaintextCorpusReader(corpus_root,'.*')>>>newcorpus.words()如何使用punkt分割new