草庐IT

regex - 如何组合用正则表达式提取的句子中的所有单词?

如果可能的话,我想结合一个linux命令,所有以大写字母开头的单词,不包括行首的单词。目标是在这些词之间创建边缘。例如:MyfriendJohnmetBeatriceandLucio.我想要的结果应该是:约翰,比阿特丽斯约翰,卢西奥比阿特丽斯,卢西奥我设法通过正则表达式获取了所有以大写字母开头的单词,不包括行首的单词。正则表达式是:*catgov.json|grep-oP"\b([A-Z][a-z']*)(\s[A-Z][a-z']*)*\b|^(\s*.*?\s).*">nodes.csv*节点设法将它们单独输入列中,即:约翰比阿特丽斯卢西奥现在的目标是创建以大写字母开头的名称之间的

php - 如何从句子中删除多余的空格、制表符和换行符并仅用一个空格替换它们?

这个问题在这里已经有了答案:关闭11年前。PossibleDuplicate:removemultiplewhitespacesinphp我有一个字符流、一个句子或一个段落,它们可能在两个单词甚至制表符或换行符中有额外的空格,我怎样才能删除所有这些并用一个空格替换它们。

php - 如何选择句子的前 10 个单词?

如何从输出中只选择前10个词? 最佳答案 implode('',array_slice(explode('',$sentence),0,10));要添加对逗号和破折号等其他分词符的支持,preg_match提供了一种快速的方法并且不需要拆分字符串:functionget_words($sentence,$count=10){preg_match("/(?:\w+(?:\W+|$)){0,$count}/",$sentence,$matches);return$matches[0];}正如Pebbl所提到的,PHP不能很好地处理UTF

python - 如何将单词列表列表转换为句子字符串?

我有这份list[['obytay'],['ikeslay'],['ishay'],['artway']]我需要它的样子obytayikeslayishayartway有人可以帮忙吗?我尝试使用join但我无法让它工作。 最佳答案 您在列表中有一个列表,因此它没有按照您认为的方式工作。然而,你的尝试是绝对正确的。按如下方式进行:''.join(word[0]forwordinword_list)word_list是上面显示的列表。>>>word_list=[['obytay'],['ikeslay'],['ishay'],['art

Python Untokenize 一个句子

关于如何标记句子的指南有很多,但我没有找到任何相反的方法。importnltkwords=nltk.word_tokenize("I'vefoundamedicineformydisease.")resultIgetis:['I',"'ve",'found','a','medicine','for','my','disease','.']是否有任何功能可以将标记化的句子恢复到原始状态。tokenize.untokenize()函数由于某种原因不起作用。编辑:我知道我可以这样做,这可能会解决问题,但我很好奇是否有一个集成功能:result=''.join(sentence).replac

python - 如何调整 NLTK 句子标记器

我正在使用NLTK分析一些经典文本,并且遇到了逐句标记文本的麻烦。例如,这是我从MobyDick中得到的片段。:importnltksent_tokenize=nltk.data.load('tokenizers/punkt/english.pickle')'''(Chapter16)Aclamforsupper?acoldclam;isTHATwhatyoumean,Mrs.Hussey?"saysI,"butthat'sarathercoldandclammyreceptioninthewintertime,ain'tit,Mrs.Hussey?"'''sample='Aclamf

python - 如何标记 NLTK 中的字符串句子?

我正在使用nltk,所以我想创建自己的自定义文本,就像nltk.books上的默认文本一样。但是,我刚刚开始使用类似的方法my_text=['This','is','my','text']我想找到任何方法来输入我的“文本”:my_text="Thisismytext,thisisanicewaytoinputtext."哪种方法,python或nltk允许我这样做。更重要的是,如何消除标点符号? 最佳答案 这实际上是在mainpageofnltk.org:>>>importnltk>>>sentence="""Ateighto'cl

python - 如何将文本拆分为句子?

我有一个文本文件。我需要获取句子列表。如何实现?有很多微妙之处,例如缩写中使用的点。我的旧正则表达式效果不佳:re.compile('(\.|^|!|\?)([A-Z][^;↑\.@\^&/\[\]]*(\.|!|\?))',re.M) 最佳答案 自然语言工具包(nltk.org)可以满足您的需求。Thisgroupposting表示这样做:importnltk.datatokenizer=nltk.data.load('tokenizers/punkt/english.pickle')fp=open("test.txt")data

java - 如何判断一个句子是否是疑问句(疑问句)?

是否有用于查找特定文本是否是问题的开源Java库/算法?我正在开发一个问答系统,该系统需要分析用户输入的文本是否是问题。我认为这个问题可能可以通过使用开源NLP库来解决,但它显然比简单的词性标记更复杂。因此,如果有人可以通过使用现有的开源NLP库来告诉算法,那也很好。如果您知道使用数据挖掘来解决此问题的库/工具包,也请告诉我。虽然很难获得足够的数据用于训练目的,但我将能够使用堆栈交换数据进行训练。 最佳答案 在一个问题的句法分析中,正确的结构将是:(SBARQ(WH+(W+)...)(SQ...*(V+)...*)(?))因此,使用

java - 如何使用Java检查句子中是否存在单词?

这个问题在这里已经有了答案:HowtofindawholewordinaStringinJava?(14个回答)Howtosearchwordbywordinandroid(5个回答)关闭8年前。我是编程新手,并且正在开发一个函数以在句子中出现单词时返回true。我尝试了indexOf()方法,但后来我也遇到了这种方法的某个问题:假设我的句子是Iama,JavaProgrammer.如果我们使用indexOf()方法查找单词ram那么它将返回true因为ram出现在Programmer中,而正确的输出应该是false因为ram不是作为单词出现而是作为模式出现。我该如何解决这个问题?我现