找单词

python - 将单词添加到 nltk 停止列表

我有一些代码可以从我的数据集中删除停用词，因为停用列表似乎没有删除大部分我也想要的词，我正在寻找向这个停用列表添加词，以便对于这种情况，它将删除它们。我用来删除停用词的代码是:word_list2=[w.strip()forwinword_listifw.strip()notinnltk.corpus.stopwords.words('english')]我不确定添加单词的正确语法，而且似乎无法在任何地方找到正确的语法。任何帮助表示赞赏。谢谢。最佳答案您可以简单地使用append方法向其中添加单词:stopwords=nltk.

单词 python section stopwords nltk stop-words

python - 使用 Python 计算文档中唯一单词的数量

我是Python新手，试图理解给定的答案here计算文档中唯一单词的问题。答案是:printlen(set(w.lower()forwinopen('filename.dat').read().split()))Readstheentirefileintomemory,splitsitintowordsusingwhitespace,convertseachwordtolowercase,createsa(unique)setfromthelowercasewords,countsthemandprintstheoutput为了尝试理解这一点，我尝试逐步在Python中实现它。我可以使

单词 python section Counter

python - 如何从字符串列表中删除单词列表

抱歉，如果问题有点令人困惑。这类似于thisquestion我认为上述问题接近我想要的，但在Clojure中。有another问题我需要这样的东西，但在那个问题中没有“[br]”，而是需要搜索和删除的字符串列表。希望我说清楚了。我认为这是因为python中的字符串是不可变的。我有一个需要从字符串列表中删除的干扰词列表。如果我使用列表理解，我最终会一次又一次地搜索相同的字符串。因此，只有“of”被删除，而不是“the”。所以我修改后的列表看起来像这样places=['NewYork','theNewYorkCity','atMoscow'andmanymore]noise_words_l

单词 python 39 section stackoverflow regex list-comprehension stop-words

python - 如何检查字典值是否包含单词/字符串？

这个问题在这里已经有了答案:DoesPythonhaveastring'contains'substringmethod?(10个答案)关闭6年前。我有一个简单的条件，我需要检查字典值是否在特定键中包含say[Complted]。示例:'Events':[{'Code':'instance-reboot'|'system-reboot'|'system-maintenance'|'instance-retirement'|'instance-stop','Description':'string','NotBefore':datetime(2015,1,1),'NotAfter':da

单词 python section 39 code dictionary

python - PyEnchant:使用个人单词列表拼写检查文本 block

因此，除了语言词典之外，PyEnchant还允许您定义正确拼写单词的个人单词列表:d2=enchant.DictWithPWL("en_US","mywords.txt")然而，生成的d2检查器属于Dict类，只能用于检查单个单词，例如:>>>d.check("Hello")TrueSpellChecker类允许对一段文本进行拼写检查。但是，我似乎无法找到如何像使用Dict那样指定个人单词列表。这不是受支持的功能吗？我想根据en_US和我的个人单词表对一段文本进行拼写检查。有什么想法吗？最佳答案 SpellChecker初始值设定

拼写单词 code section python spell-checking pyenchant

python - 调用 NLTK 的索引 - 如何在使用的单词之前/之后获取文本？

我想知道concordace返回的实例之后是什么文本。因此，例如，如果您查看他们在'SearchingText'section中给出的示例，他们得到了单词“monstrous”的索引。您如何获得在monstrous实例之后立即出现的单词？最佳答案 importnltkimportnltk.bookasbooktext1=book.text1c=nltk.ConcordanceIndex(text1.tokens,key=lambdas:s.lower())print([text1.tokens[offset+1]foroffset

何在单词 code concordance 39 python nltk

python - 查找可以最快说出的单词和单词组合

我非常喜欢发现可以快速说唱的句子。例如，“我得读一点维基百科”或“不想带着一瓶麦芽威士忌倒在阴沟里”。(乔治·沃茨基)我想用Python编写一个程序，使我能够找到可以清晰表达的单词(或单词组合)，以便在说话时听起来非常快。我最初认为音节与字母比率高的单词是最好的，但是在编写Python程序来查找这些单词时，我只检索到听起来并不快的非常简单的单词(例如“iowa”)。所以我不知道究竟是什么让单词听起来很快。是语素与字母的比例吗？是交替的元音-辅音对的数量吗？你们会如何设计一个python程序来解决这个问题？最佳答案这只是盲目尝试，

单词说出 noreferrer section python algorithm word nlp linguistics

python - 特定单词的 NLTK 搭配

我知道如何使用NLTK获取二元组和三元组搭配，并将它们应用到我自己的语料库中。代码如下。不过我不确定(1)如何获取特定单词的搭配？(2)NLTK是否有基于对数似然比的配置度量？importnltkfromnltk.collocationsimport*fromnltk.tokenizeimportword_tokenizetext="thisisafoobarbarblacksheepfoobarbarblacksheepfoobarbarblacksheepshepbarbarblacksentence"trigram_measures=nltk.collocations.Trigr

单词搭配 finder creature section python nltk collocation

python - 在 Python 中遍历文件的单词

我需要遍历一个大文件的单词，该文件由一个很长的行组成。我知道逐行遍历文件的方法，但是由于它的单行结构，它们不适用于我的情况。还有其他选择吗？最佳答案这实际上取决于您对词的定义。但是试试这个:f=file("your-filename-here").read()forwordinf.split():#dosomethingwithwordprintword这将使用空白字符作为单词边界。当然，记得正确打开和关闭文件，这只是一个简单的例子。关于python-在Python中遍历文件的单词

单词 python section stackoverflow file io

python - 使用 nltk 标记单词时防止在撇号处 split

我正在使用nltk将句子拆分为单词。例如nltk.word_tokenize("Thecodedidn'twork!")->['The','code','did',"n't",'work','!']标记化在分割单词边界方面效果很好[即splittingpunctuationfromwords]，但有时过度拆分，单词末尾的修饰符被视为单独的部分。例如，didn't被拆分为did和n't部分，i've被拆分我和已经。显然，这是因为这些词在nltk使用的原始语料库中被一分为二，在某些情况下可能是可取的。是否有任何内置方法可以覆盖此行为？可能以类似于nltk的MWETokenizer能够将多个

单词 python code nltk 39

89 90 919293 94 95