草庐IT

找单词

全部标签

python - 找出单词中的音节数

我需要使用NLTK找出英语单词中的音节数。这是我到目前为止的代码:importcursesfromcurses.asciiimportisdigitimportnltkfromnltk.corpusimportcmudictd=cmudict.dict()defnsyl(word):return[len(list(yforyinxifisdigit(y[-1])))forxind[word.lower()]]>>>nsyl(arithmetic)函数调用后,我收到一个名称错误,指出算术未定义。谁能帮我找出代码中的错误? 最佳答案 你

python - 如何从python中的字符串中删除连续的相同单词

我有一个字符串如下,我需要删除类似的连续单词。mystring="myfriend'snewnewnewnewandoldoldcatsarerunningrunninginthestreet"我的输出应该如下所示。myoutput="myfriend'snewandoldcatsarerunninginthestreet"我正在使用以下python代码来完成它。mylist=[]fori,winenumerate(mystring.split()):forn,linenumerate(mystring.split()):ifl!=wandi==n-1:mylist.append(w)

用于带连字符的单词的 Python 正则表达式

我正在寻找一个正则表达式来匹配Python中带连字符的单词。我设法得到的最接近的是:'\w+-\w+[-w+]*'text="one-hundered-and-three-sometextfoo-barsome--text"hyphenated=re.findall(r'\w+-\w+[-\w+]*',text)返回列表['one-hundered-three-','foo-bar']。这几乎是完美的,除了'three'后面的连字符。如果后跟'word',我只需要额外的连字符。即代替'[-\w+]\*'我需要像'(-\w+)*'这样的东西,我认为它可以工作,但没有(它返回['-thre

python - PDF 提取中的空白和奇怪的单词解释

使用下面的代码片段,我尝试从this中提取文本数据PDF文件。importpyPdfdefget_text(path):#LoadPDFintopyPDFpdf=pyPdf.PdfFileReader(file(path,"rb"))#Iteratepagescontent=""foriinrange(0,pdf.getNumPages()):content+=pdf.getPage(i).extractText()+"\n"#Extracttextfrompageandaddtocontent#Collapsewhitespacecontent="".join(content.rep

python - 如何在 Python 中检查字符串中的确切单词或短语

我需要找到一种方法来找出在字符串中找到准确单词的方法。我在网上看的所有资料都只告诉我如何在字符串中搜索字母,所以98787Thisiscorrect在if语句中仍然会返回true。这就是我目前所拥有的。if'Thisiscorrect'intext:print("correct")这将适用于Thisiscorrect之前的任意字母组合...例如fkrjThisiscorrect、4123Thisiscorrect和lolThisiscorrect将在if语句中全部返回为true。当我希望它仅在完全匹配Thisiscorrect时返回true。 最佳答案

python - 如何获取句子中单词的长度?

我正在尝试获取句子中每个单词的长度。我知道你可以使用“len”函数,我只是不知道如何获取每个单词的长度。代替这个>>>s="pythonisprettyfuntouse">>>len(s)27>>>我想要这个6,2,6,3,2,3这是每个单词的实际长度。 最佳答案 试试这个,使用map()申请len()遍历句子中的每个单词,理解split()用句子中的每个单词创建一个列表:s="pythonisprettyfuntouse"map(len,s.split())#assumingPython2.xlist(map(len,s.spli

python - 如何将空格分隔的键字符串,唯一单词的值对转换为字典

我有一个由空格分隔的单词的字符串(所有单词都是唯一的,没有重复的)。我把这个字符串变成列表:s="#onecat#twodogs#threebirds"out=s.split()并计算创建了多少个值:printlen(out)#Says192然后我尝试从列表中删除所有内容:forxinout:out.remove(x)然后再数数:printlen(out)#Says96谁能解释一下为什么它说的是96而不是0?更多信息每一行都以“#”开头,实际上是一对以空格分隔的单词:单词对中的第一个是键,第二个是值。所以,我正在做的是:forxinout:if'#'inx:ind=out.index(

python - 试图计算字符串中的单词

我正在尝试分析字符串的内容。如果单词中混有标点符号,我想用空格替换它们。例如,如果将Johnny.Appleseed!is:a*good&farmer作为输入输入,那么它应该说有6个词,但我的代码只将其视为0个词。我不确定如何删除不正确的字符。仅供引用:我正在使用python3,而且我无法导入任何库string=input("typesomething")stringss=string.split()forcinrange(len(stringss)):fordinstringss[c]:if(stringss[c][d].isalnum!=True):#somethingthatre

python - 如何从列表中随机选择一个英文单词

很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visitthehelpcenter.关闭10年前。要获得一个返回随机英语单词(最好是名词)的函数,而无需事先在文件中保留所有可能单词的列表,最好的方法是什么?

python - 在 sklearn 的 TfidfVectorizer 中将单词添加到 stop_words 列表

我想在TfidfVectorizer中的stop_words中再添加几个词。我遵循了Addingwordstoscikit-learn'sCountVectorizer'sstoplist中的解决方案.我的停用词列表现在包含“英语”停用词和我指定的停用词。但TfidfVectorizer仍然不接受我的停用词列表,我仍然可以在我的功能列表中看到这些词。下面是我的代码fromsklearn.feature_extractionimporttextmy_stop_words=text.ENGLISH_STOP_WORDS.union(my_words)vectorizer=TfidfVect