草庐IT

找单词

全部标签

python - 如何标记马拉雅拉姆语单词?

ഇതുഒരുസ്ടലംമാണ്ituorustalamanu这是一个Unicode字符串,意思是这是一个地方importnltknltk.wordpunct_tokenize('ഇതുഒരുസ്ഥാലമാണ്'.decode('utf8'))不适合我。nltk.word_tokenize('ഇതുഒരുസ്ഥാലമാണ്'.decode('utf8'))也不行其他例子"കണ്ടില്ല"=കണ്ടു+ഇല്ല,"വലിയൊരു"=വലിയ+ഒരു右拆分:ഇത്ഒരുസ്ഥാലംആണ്输出:[u'\u0d07\u0d24\u0d4d\u0d12\u0d30\u0d41\u0d38\u0d

python - 从字符串中提取单词,删除标点符号并返回带有分隔单词的列表

我想知道如何实现一个函数get_words(),它返回列表中字符串中的单词,去掉标点符号。我希望如何实现它是将非string.ascii_letters替换为''并返回一个.split()。defget_words(text):'''Thefunctionshouldtakeoneargumentwhichisastring'''returnstext.split()例如:>>>get_words('Helloworld,mynameis...James!')返回:>>>['Hello','world','my','name','is','James'] 最

python - 如何使用 spacy lemmatizer 将单词转换为基本形式

我是spacy的新手,我想使用它的lemmatizer功能,但我不知道如何使用它,就像我进入单词字符串一样,它将以单词的基本形式返回字符串。例子:'单词'=>'单词''做过'=>'做'谢谢。 最佳答案 上一个答案很复杂,无法编辑,所以这里是一个更传统的答案。#makesureyourdownloadedtheenglishmodelwith"python-mspacydownloaden"importspacynlp=spacy.load('en')doc=nlp(u"Applesandorangesaresimilar.Boots

python - 如何匹配字符串中的确切单词?

我有一个字符串,其中local这个词出现了很多次。我使用find()函数来搜索这个词,但它也会找到例如本地。如何准确匹配local? 最佳答案 对于这种事情,正则表达式非常有用:importreprint(re.findall('\\blocal\\b',"Hello,locallylocaltestlocal."))//['local','local']\b基本上意味着单词边界。可以是空格、标点符号等。编辑评论:print(re.sub('\\blocal\\b','*****',"Hello,LOCALlocallylocalt

python - 在python中的单词上拆分语音音频文件

我觉得这是一个相当普遍的问题,但我还没有找到合适的答案。我有许多人类语音的音频文件,我想在单词上打断,这可以通过查看波形中的停顿来启发式地完成,但是谁能指出我在python中自动执行此操作的函数/库? 最佳答案 更简单的方法是使用pydub模块。最近添加了silentutilities完成所有繁重的工作,例如设置静音阈值,设置静音长度。等,与提到的其他方法相比,大大简化了代码。这是一个演示实现,灵感来自here设置:我在文件“a-z.wav”中有一个音频文件,其中包含从A到Z的英语口语字母。在当前工作目录中创建了一个子目录split

python - 使用 Python,查找单词列表的字谜

假设我有一个字符串列表,如["car","tree","boy","girl","arc"]等。我想在其中找到字谜组列表-在这种情况下,(car,arc).我尝试编写代码来遍历列表并比较字符串对,但我该如何解释字母可以按不同顺序排列的事实?关于检查单对字符串是否是彼此的变位词的具体情况,见Checkingstringsagainsteachother(Anagrams). 最佳答案 为了对2个字符串执行此操作,您可以这样做:defisAnagram(str1,str2):str1_list=list(str1)str1_list.s

Python:检查单词是否拼写正确

关闭。这个问题需要更多focused.它目前不接受答案。想要改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭4年前。Improvethisquestion我正在寻找一种简单的方法来检查某个字符串是否是正确拼写的英文单词。例如,'looked'将返回True,而'hurrr'将返回False。我不需要拼写建议或任何拼写纠正功能。只是一个简单的函数,它接受一个字符串并返回一个bool值。 最佳答案 两种可能的方法:拥有自己的文件,其中包含所有有效的词。将文件加载到设置并比较每个单词以查看是否存在于其中(集

python - 在 gensim Word2Vec 模型中匹配单词和向量

我有gensimWord2Vec实现为我计算一些词嵌入。据我所知,一切都非常奇妙。现在我正在对创建的词向量进行聚类,希望得到一些语义分组。下一步,我想查看每个集群中包含的单词(而不是向量)。IE。如果我有嵌入向量[x,y,z],我想找出这个向量代表的实际单词。我可以通过调用model.vocab和通过model.syn0来获取单词/词汇项和单词向量。但我找不到明确匹配这些的位置。这比我预期的要复杂,我觉得我可能错过了明显的方法。任何帮助表示赞赏!问题:将单词与Word2Vec()创建的嵌入向量匹配——我该怎么做?我的做法:创建模型后(代码如下*),我现在想将分配给每个单词的索引(在bu

python - 如何将单词列表列表转换为句子字符串?

我有这份list[['obytay'],['ikeslay'],['ishay'],['artway']]我需要它的样子obytayikeslayishayartway有人可以帮忙吗?我尝试使用join但我无法让它工作。 最佳答案 您在列表中有一个列表,因此它没有按照您认为的方式工作。然而,你的尝试是绝对正确的。按如下方式进行:''.join(word[0]forwordinword_list)word_list是上面显示的列表。>>>word_list=[['obytay'],['ikeslay'],['ishay'],['art

python - 正则表达式在 Python 中拆分单词

我正在设计一个正则表达式来拆分给定文本中的所有实际单词:输入示例:"John'smomwentthere,buthewasn'tthere.Soshesaid:'Whereareyou'"预期输出:["John's","mom","went","there","but","he","wasn't","there","So","she","said","Where","are","you"]我想到了这样的正则表达式:"(([^a-zA-Z]+')|('[^a-zA-Z]+))|([^a-zA-Z']+)"在Python中拆分后,结果包含None项和空格。如何去掉None项?为什么空格不匹