草庐IT

找单词

全部标签

Python正则表达式匹配特定单词

我想匹配测试报告中包含单词“NotOk”的所有行。文本行示例:'Testresult1:NotOk-31.08'我试过这个:filter1=re.compile("NotOk")forlineinmyfile:iffilter1.match(line):printline应该根据http://rubular.com/工作,但我在输出中什么也得不到。任何想法,可能有什么问题?测试了各种其他参数,例如“。”和"^Test",效果很好。 最佳答案 你应该在这里使用re.search而不是re.match。来自docs在re.match上:

python - 使用正则表达式获取连续的大写单词

我的正则表达式无法捕获连续的大写单词。这是我希望正则表达式捕获的内容:"saidPollyPocketandthetoys"->PollyPocket这是我正在使用的正则表达式:re.findall('said([A-Z][\w-]*(\s+[A-Z][\w-]*)+)',article)它返回以下内容:[('PollyPocket','Pocket')]我希望它返回:['PollyPocket'] 最佳答案 使用积极的前瞻:([A-Z][a-z]+(?=\s[A-Z])(?:\s[A-Z][a-z]+)+)断言要接受的当前单词需要

python - 从 Dataframe Pandas 中的句子中计算最常见的 100 个单词

我在Pandas数据框的一列中有文本评论,我想计算N个最常见的单词及其频率计数(在整列中-而不是在单个单元格中)。一种方法是通过遍历每一行来使用计数器对单词进行计数。有更好的选择吗?代表性数据。0ahearteningtaleofsmallvictoriesandendu1nosophomoreslumpfordirectorsammendesw2ifyouareanactorwhocanrelatetothesea3it'sthismemory-as-identityobviationthatg4boyd'sscreenplay(co-writtenwithguardian

python - 在python中查找单词结尾的索引

有没有更好的(呃)方法来找到字符串中单词的结束索引?我的方法是这样的:text="fedupofseeingperfectfashionphotographs"word="fashion"wordEndIndex=text.index(word)+len(word)-1 最佳答案 这取决于您是否真的想知道结束索引。大概您实际上对之后的text更感兴趣?那么你在做这样的事情吗?>>>text[wordEndIndex:]'nphotographs'如果您确实需要索引,那么按照您所做的去做,但是将它包装在一个函数中,您可以为不同的tex

python - NLTK ViterbiParser 无法解析不在 PCFG 规则中的单词

importnltkfromnltk.parseimportViterbiParserdefpcfg_chartparser(grammarfile):f=open(grammarfile)grammar=f.read()f.close()returnnltk.PCFG.fromstring(grammar)grammarp=pcfg_chartparser("wsjp.cfg")VP=ViterbiParser(grammarp)printVPforwinsent:fortreeinVP.parse(nltk.word_tokenize(w)):printtree当我运行上面的代码时

python - 确定在 QWERTY 键盘上键入单词的难度

我正在寻找一种相当简单的算法来确定在QWERTY布局上键入单词的难度。这些词不一定是字典词,所以通常打错的词或类似词的列表不是一个选项。我确定一定有一个现成的、经过良好测试的算法,但我找不到任何东西。任何人都可以提供任何帮助或建议吗?我正在用Python编写算法,但欢迎使用任何其他语言或伪代码。 最佳答案 有thiscomparison在QWERTY、Colemak和Dvorak布局之间,它使用Java中的源代码计算键入的键之间的距离、同一只手上的键的百分比等。这些指标结合起来应该可以很好地估计单词的“可打字性”。

python - 双引号的 NLTK 单词标记化行为令人困惑

importnltk>>>nltk.__version__'3.0.4'>>>nltk.word_tokenize('"')['``']>>>nltk.word_tokenize('""')['``','``']>>>nltk.word_tokenize('"A"')['``','A',"''"]看看它如何将"更改为双``和''?这里发生了什么?为什么要改变性格?有解决办法吗?因为稍后我需要搜索字符串中的每个标记。Python2.7.6是否有任何不同。 最佳答案 长话短说:nltk.word_tokenize从"->``更改开始双引

python - 如何在我的代码中打印中文单词..使用python

这是我的代码:print'哈哈'.decode('gb2312').encode('utf-8')...并打印:SyntaxError:Non-ASCIIcharacter'\xe5'infileD:\zjm_code\a.pyonline2,butnoencodingdeclared;seehttp://www.python.org/peps/pep-0263.htmlfordetails如何打印'哈哈'?更新:当我使用以下代码时:#!/usr/bin/python#-*-coding:utf-8-*-print'哈哈'...它打印鍝朴搱。这不是我想要的。我的IDE是Ulipad,请

python - 不要用 Python 字符串 split() 拆分双引号单词?

当使用Python字符串函数split()时,有人有妙招可以将双引号包围的项目视为非拆分词吗?假设我只想在空白处拆分,我有这个:>>>myStr='AB\t"C"DE"FE"\t\t"GHIJKL"""""\t"OPQ"R'>>>myStr.split()['A','B','"C"','DE','"FE"','"GH','I','JK','L"','""','""','"O','P','Q"','R']我想将双引号内的任何内容都视为一个单词,即使嵌入了空格,所以我想以以下结尾:['A','B','C','DE','FE','GHIJKL','','','OPQ','R']或者至少这个,

python - 在 Python 中查找字符串中以 $ 符号开头的所有单词

如何提取字符串中以$符号开头的所有单词?例如在字符串中This$stringisan$example我想提取单词$string和$example。我尝试使用这个正则表达式\b[$]\S*但只有当我使用普通字符而不是美元时它才能正常工作。 最佳答案 >>>[wordforwordinmystring.split()ifword.startswith('$')]['$string','$example'] 关于python-在Python中查找字符串中以$符号开头的所有单词,我们在Stack