草庐IT

找单词

全部标签

Python获取字符串中的第x个单词

我正在寻找一个包含脚本中第4个(或5个)单词的代码。我试过这个:importremy_string="thecatandthisdogareinthegarden"a=my_string.split('',1)[0]b=my_string.split('',1)[1]但我不能接受超过2个字符串:a=theb=catandthisdogareinthegarden我想要:a=theb=catc=andd=this... 最佳答案 您可以在拆分创建的列表上使用切片符号:my_string.split()[:4]#first4wordsm

在 .txt 文件中找到最常见单词的 Python 程序,必须打印单词及其计数

截至目前,我有一个函数可以替换countChars函数,defcountWords(lines):wordDict={}forlineinlines:wordList=lines.split()forwordinwordList:ifwordinwordDict:wordDict[word]+=1else:wordDict[word]=1returnwordDict但是当我运行这个程序时,它吐出这个令人厌恶的东西(这只是一个例子,大约有两页单词旁边有一个巨大的数字)before1478battle-field1478as1478any1478altogether1478all1478a

python - 如何从字典中构建比蛮力更好的 Plinko 单词板?

考虑以下字母排列:BOANRIDENT从最上面的字母开始,选择下面两个字母之一,Plinko风格,直到到达底部。无论您选择什么路径,您都会创建一个四个字母的单词:BOND、BONE、BORE、BORN、BARE、BARN、BAIN或BAIT。DENT读取底部的事实只是一个很好的巧合。我想帮助找出可以设计这种布局的算法,其中从顶部到底部的每条可能路径都会从(提供的)字典中生成一个不同的词。程序的输入是一个起始字母(本例中为B)和一个字长n(本例中为4)。它会返回构成这种布局的字母,或者一条消息说这是不可能的。它不必是确定性的,因此它可能会使用相同的输入生成不同的布局。到目前为止,我还没有

Python - 查找文本文件中单词列表的单词频率

我正在努力加快我的项目以计算词频。我有360多个文本文件,我需要获取单词总数和另一个单词列表中每个单词出现的次数。我知道如何使用单个文本文件执行此操作。>>>importnltk>>>importos>>>os.chdir("C:\Users\Cameron\Desktop\PDF-to-txt")>>>filename="1976.03.txt">>>textfile=open(filename,"r")>>>inputString=textfile.read()>>>word_list=re.split('\s+',file(filename).read().lower())>>>

python - 计算 Pandas 数据框中每个特定单词的出现次数

我想计算数据框中每个特定单词的出现次数。我目前使用str.contains:a=df2[df2['col1'].str.contains("sample")].groupby('col2').size()n=a.apply(lambdax:1).sum()有没有一种方法可以匹配正则表达式并获取出现次数?在我的例子中,我有一个大数据框,我想匹配大约100个字符串。 最佳答案 更新:原始答案计算那些包含子字符串的行。要计算一个子字符串的所有出现次数,您可以使用.str.count:In[21]:df=pd.DataFrame(['hel

python - 如何使用 WordNet 查找英语单词的频率计数?

有没有一种方法可以使用WordNet或使用Python的NLTK查找英语单词的使用频率?注意:我不想要给定输入文件中某个单词的频率计数。我想根据今天的使用情况大致了解某个词的出现频率。 最佳答案 在WordNet中,每个Lemma都有一个由方法返回的频率计数lemma.count(),存储在文件nltk_data/corpora/wordnet/cntlist.rev中。代码示例:fromnltk.corpusimportwordnetsyns=wordnet.synsets('stack')forsinsyns:forlins.l

python - 在 NLTK 3.0 中使用 Wordnet 从 Synset 中提取单词

前段时间SO上有人问howtoretrievealistofwordsforagivensynset使用NLTK的wordnet包装器。以下是建议的回复之一:forsynsetinwn.synsets('dog'):printsynset.lemmas[0].name使用NLTK3.0运行此代码会产生TypeError:'instancemethod'objectisnotsubscriptable。我尝试了之前提出的每个解决方案(上面链接页面上描述的每个解决方案),但每个都会引发错误。因此我想问:是否可以使用NLTK3.0打印同义词集列表中的单词?如果其他人可以就此问题提供任何建议,

python - 在 NLTK 3.0 中使用 Wordnet 从 Synset 中提取单词

前段时间SO上有人问howtoretrievealistofwordsforagivensynset使用NLTK的wordnet包装器。以下是建议的回复之一:forsynsetinwn.synsets('dog'):printsynset.lemmas[0].name使用NLTK3.0运行此代码会产生TypeError:'instancemethod'objectisnotsubscriptable。我尝试了之前提出的每个解决方案(上面链接页面上描述的每个解决方案),但每个都会引发错误。因此我想问:是否可以使用NLTK3.0打印同义词集列表中的单词?如果其他人可以就此问题提供任何建议,

python - 在python 3中查找字符串中某个单词的出现

我正在尝试查找某个单词在字符串中出现的次数。word="dog"str1="thedogsbarked"我使用以下方法来计算出现次数:count=str1.count(word)问题是我想要完全匹配。所以这句话的计数将为0。这可能吗? 最佳答案 如果您要提高效率:importrecount=sum(1for_inre.finditer(r'\b%s\b'%re.escape(word),input_string))这不需要创建任何中间列表(与split()不同),因此对于较大的input_string值将有效地工作。它还有正确使用标

python - 在python 3中查找字符串中某个单词的出现

我正在尝试查找某个单词在字符串中出现的次数。word="dog"str1="thedogsbarked"我使用以下方法来计算出现次数:count=str1.count(word)问题是我想要完全匹配。所以这句话的计数将为0。这可能吗? 最佳答案 如果您要提高效率:importrecount=sum(1for_inre.finditer(r'\b%s\b'%re.escape(word),input_string))这不需要创建任何中间列表(与split()不同),因此对于较大的input_string值将有效地工作。它还有正确使用标