草庐IT

找单词

全部标签

python - 替换列表中的单词并附加到同一个列表

我的list:city=['VenangoMuniciplaity','Waterfordship','NewYork']预期结果:city=['VenangoMuniciplaity','Waterfordship','NewYork','Venango','Waterford']常用词:common_words=['ship','municipality']扫描我的列表中的所有项目,去掉常用词并重新插入到同一个列表中,如预期结果所示。我可以搜索包含常用词的项目,但不知道如何将其替换为空白并重新插入到我的列表中。到目前为止我的代码:foritemincity:if(any(xins.

python - 从字符串中删除单词列表

我有一个停用词列表。我有一个搜索字符串。我想从字符串中删除单词。举个例子:stopwords=['what','who','is','a','at','is','he']query='Whatishello'现在代码应该去掉“什么”和"is"。但是在我的情况下,它会去除“a”和“at”。我在下面给出了我的代码。我可能做错了什么?forwordinstopwords:ifwordinquery:printwordquery=query.replace(word,"")如果输入查询是“WhatisHello”,我得到的输出是:whtllo为什么会这样? 最佳答案

python - 使用 Python 删除小单词

是否可以使用正则表达式来删除文本中的小词?例如,我有以下字符串(文本):anytext="intheechochamberfromOntarioduo"我想删除所有不超过3个字符的单词。结果应该是:"echochamberfromOntario"是否可以使用正则表达式或任何其他python函数来做到这一点?谢谢。 最佳答案 我认为这个简单的例子无论如何都不需要正则表达式...''.join(wordforwordinanytext.split()iflen(word)>3) 关于pyth

python - 有效地构建具有给定汉明距离的单词图

我想用Hammingdistance的单词列表构建一个图表(比如说)1,或者换一种说法,如果两个单词仅与一个字母不同(lol->lot)。这样给定words=[lol,lot,bot]图表将是{'lol':['lot'],'lot':['lol','bot'],'bot':['lot']}简单的方法是将列表中的每个单词相互比较并计算不同的字符;遗憾的是,这是一个O(N^2)算法。我可以使用哪种算法/ds/策略来获得更好的性能?另外,我们假设只有拉丁字符,并且所有单词的长度都相同。 最佳答案 假设您将字典存储在set()中,因此loo

python - 在python中查找关键字后的单词

我想查找出现在关键字(由我指定和搜索)之后出现的单词并打印出结果。我知道我想用正则表达式来做,我也试过了,像这样:importres="himynameisryan,andiamnewtopythonandwouldliketolearnmore"m=re.search("^name:(\w+)",s)printm.groups()输出只是:"is"但我想获取“名称”之后的所有单词和标点符号。 最佳答案 您可以(例如)用str.partition(separator)分隔字符串,而不是使用正则表达式像这样:mystring="him

python - 如何使用 Python 删除字符串中的重复单词?

以下示例:string1="calvinkleindesigndresscalvinklein"如何删除后两个重复的"calvin"和"klein"?结果应该是这样的string2="calvinkleindesigndress"仅应删除第二个重复项,并且不应更改单词的顺序! 最佳答案 string1="calvinkleindesigndresscalvinklein"words=string1.split()print("".join(sorted(set(words),key=words.index)))这会根据单词在原始单词

python - 如何使这个 Python Scrabble 单词查找器变得更快?

我没有真正需要改进它,这只是为了好玩。现在,在大约20万字的列表中,它需要大约一秒钟的时间。我已经尽我所能优化它(使用生成器而不是列表推导产生了很大的不同),但我已经没有想法了。你有吗?#!/usr/bin/envpython#let'scheatatscrabbledefcount_letters(word):count={}forletterinword:ifletternotincount:count[letter]=0count[letter]+=1returncountdefspellable(word,rack):word_count=count_letters(word)

python - 使用 python-tesseract 获取识别单词的边界框

我正在使用python-tesseract从图像中提取单词。这是一个tesseract的Python包装器,它是一个OCR代码。我正在使用以下代码来获取单词:importtesseractapi=tesseract.TessBaseAPI()api.Init(".","eng",tesseract.OEM_DEFAULT)api.SetVariable("tessedit_char_whitelist","0123456789abcdefghijklmnopqrstuvwxyz")api.SetPageSegMode(tesseract.PSM_AUTO)mImgFile="test.

python - 如何从字符串中删除特定单词?

我需要从字符串中删除一个特定的单词。但我发现pythonstrip方法似乎无法识别有序单词。只是去掉传递给参数的所有字符。例如:>>>papa="papaisagoodman">>>app="appisimportant">>>papa.lstrip('papa')"isagoodman">>>app.lstrip('papa')"isimportant"如何用python去掉指定的单词? 最佳答案 使用str.replace。>>>papa.replace('papa','')'isagoodman'>>>app.replace(

Python - 如何使用 NLP 从缩写文本中直观地理解单词?

我最近正在研究一个使用各种单词缩写的数据集。例如,wtrbtl=waterbottlebwlingbl=bowlingballbsktball=basketball在使用的约定方面似乎没有任何一致性,即有时他们使用元音有时不使用。我正在尝试为没有完整的语料库或完整的术语列表(即可以引入未明确知道的缩写)的缩写及其对应单词构建一个像上面那样的映射对象。为简单起见,说它仅限于您在健身房找到的东西,但它可以是任何东西。基本上,如果您只看示例的左侧,在将每个缩写与相应的全文标签相关联方面,哪种模型可以进行与我们的大脑相同的处理。我的想法已经停留在取出第一个和最后一个字母并在字典中查找它们。然后