草庐IT

找单词

全部标签

python - 有没有一种简单的方法可以从 python 中的无间隔句子生成可能的单词列表?

我有一些文字:s="Imageclassificationmethodscanberoughlydividedintotwobroadfamiliesofapproaches:"我想将其解析为单独的单词。我很快查看了enchant和nltk,但没有看到任何看起来立即有用的东西。如果我有时间投资于此,我会研究编写一个具有附魔能力的动态程序来检查一个单词是否是英语。我原以为可以在线进行此操作,我错了吗? 最佳答案 使用trie的贪心方法尝试使用Biopython(pip安装biopython):fromBioimporttrieimpo

python - Gensim word2vec 在预定义字典和单词索引数据上

我需要使用gensim在推文上训练word2vec表示。与我在gensim上看到的大多数教程和代码不同,我的数据不是原始数据,而是已经过预处理。我在包含65k个单词(包括一个“未知”标记和一个EOL标记)的文本文档中有一个字典,并且推文被保存为一个带有索引的numpy矩阵到这个字典中。下面是一个简单的数据格式示例:字典.txtyoulovethiscode推文(5条未知,6条停产)[[0,1,2,3,6],[3,5,5,1,6],[0,1,3,6,6]]我不确定应该如何处理索引表示。一种简单的方法是将索引列表转换为字符串列表(即[0,1,2,3,6]->['0','1','2','3'

Python:在单词边界上拆分 unicode 字符串

我需要取一个字符串,并将其缩短为140个字符。目前我在做:iflen(tweet)>140:tweet=re.sub(r"\s+","",tweet)#normalizespacefooter="…"+utils.shorten_urls(post['url'])avail=140-len(footer)words=tweet.split()result=""forwordinwords:word+=""iflen(word)>avail:breakresult+=wordavail-=len(word)tweet=(result+footer).strip()assertlen(tw

python - 替换所有出现的特定单词

假设我有下面这句话:beanlikestosellhisbeans我想用其他词替换所有出现的特定词。例如,bean到robert,beans到cars。我不能只使用str.replace,因为在这种情况下,它会将beans更改为roberts。>>>"beanlikestosellhisbeans".replace("bean","robert")'robertlikestosellhisroberts'我只需要更改整个单词,而不是该单词在另一个单词中出现的次数。我认为我可以通过使用正则表达式来实现这一点,但不知道如何正确地做到这一点。 最佳答案

python - 如何在python列表中找到最相似的单词

我有一个单词列表list=['car','animal','house','animation']我想将每个列表项与字符串str1进行比较,输出应该是最相似的词。示例:如果str1是anlmal,则animal是最相似的词。我怎么能在python中做到这一点?通常我列表中的词彼此之间可以很好地区分。 最佳答案 使用difflib:difflib.get_close_matches(word,['car','animal','house','animation'])正如您从阅读thesource中看到的那样,“接近”匹配项从最佳到最差

python - 以结尾的python单词中的字符串比较

我有一组词如下:['Hey,howareyou?\n','MynameisMathews.\n','Ihatevegetables\n','Frenchfriescameoutsoggy\n']在上面的句子中,我需要识别所有以?或.或'gy'结尾的句子。并打印最后一个词。我的做法如下:#wordswillcontainthestringihavepastedabove.word=[wforwinwordsifre.search('(?|.|gy)$',w)]foriinword:printi我得到的结果是:Hey,howareyou?MynameisMathews.Ihateveget

python - 按单词拆分(不区分大小写)

如果我想带走"hi,mynameisfoobar"并在"foo"上拆分它,并让该拆分不区分大小写(在任何"foO"、"FOO"上拆分>、"Foo"等),我该怎么办?请记住,虽然我希望拆分不区分大小写,但我也确实希望保持字符串其余部分的大小写敏感。如果我有:test="hi,mynameisfoobar"printtest.split('foo')printtest.upper().split("FOO")我会得到['hi,mynameis','bar']['HI,MYNAMEIS','BAR']分别。但我想要的是:['hi,mynameis','bar']每一次。目标是保持原始字符串的

python - 如何检查给定单词是复数形式还是单数形式?

主题中的问题-我正在尝试在python中为GoogleAppEngine中的应用程序执行此操作。我知道PyEnchant库用于自然语言识别,但我不知道我是否可以将它用于我的问题以及如何使用它。 最佳答案 Ashwini提到了有用的inflect库,但没有解释如何检查给定单词是复数形式还是单数形式。如果您知道该词是单数还是复数,您可以使用:singular_noun(word)如果单词不是复数,这将返回False,因此理论上您的单词应该是单数。当涉及到经典复数、可以是单数或复数的形式时,请注意我的示例中显示的缺点,以及对于一般无法识别

python - 如何使用 spacy 找到最常用的单词?

我将spacy与python一起使用,它可以很好地标记每个单词,但我想知道是否有可能在字符串中找到最常见的单词。也可以得到最常用的名词、动词、副词等吗?包含一个count_by函数,但我似乎无法让它以任何有意义的方式运行。 最佳答案 我最近不得不计算文本文件中所有标记的频率。您可以使用pos_属性过滤掉单词以获得您喜欢的POStoken。这是一个简单的例子:importspacyfromcollectionsimportCounternlp=spacy.load('en')doc=nlp(u'Yourtexthere')#allto

python - 查找文件中单词的出现

我正在尝试查找文件中出现的单词数。我有一个文本文件(TEST.txt)文件内容如下:ashwinprogrammerindiaamithprogrammerindia我期望的结果是:{'ashwin':1,'programmer':2,'india':2,'amith':1}我使用的代码是:forlineinopen(TEST.txt,'r'):word=Counter(line.split())printword我得到的结果是:Counter({'ashwin':1,'programmer':1,'india':1})Counter({'amith':1,'programmer':1