句子

python - 如何提取句子中的主语及其各自的从属短语？

我正在尝试在句子中提取主题，以便根据主题获得情感。我正在使用nltk在python2.7中用于此目的。以下面这句话为例:DonaldTrumpistheworstpresidentofUSA,butHillaryisbetterthanhim他我们可以看到DonaldTrump和Hillary是两个主题，以及与DonaldTrump相关的情绪是负数但与Hillary有关是积极的。到现在为止，我已经能够将这个句子分解成大块的名词短语，并且能够得到以下内容:(S(NPDonald/NNPTrump/NNP)is/VBZ(NPthe/DTworst/JJSpresident/NN)in/IN

主语从属 tok 34 39 python nlp nltk spacy

python - 使用spaCy替换句子的 "topic"

因此，作为一个思想实验，我在python中编写了一个函数，该函数使用spaCy查找新闻文章的主题，然后将其替换为所选名词。问题是，它并不能很好地工作，我希望它能得到改进。我不太了解spaCy，而且文档有点难以理解。先上代码:doc=nlp(thetitle)fortextindoc:#subjectwouldbeiftext.dep_=="nsubj":subject=text.orth_#iobjforindirectobjectiftext.dep_=="iobj":indirect_object=text.orth_#dobjfordirectobjectiftext.dep_=

句子 amp 34 subject 20 python spacy

python - 如何将字幕文件转换为每个字幕只有一个句子？

我正在尝试编写一种转换字幕文件的方法，以便总是每个字幕只有一个句子。我的想法是:对于每个副标题:1.1->我得到字幕时长1.2->计算characters_per_second1.3->使用它来存储(在dict_times_word_subtitle内)说出单词i所需的时间我从整篇文章中提取句子对于每个句子:3.1我存储(在dict_sentences_subtitle中)用特定单词说句子所需的时间(从中我可以得到说这些单词的持续时间)我创建了一个新的srt文件(字幕文件)，它与原始srt文件同时开始，然后可以从说句子所需的持续时间中获取字幕时间。目前，我已经编写了以下代码:#----

句子 python 00 time the regex python-3.x regex-greedy subtitle

python - 在 nltk 中打断/分解复杂和复合句子

在nltk或者其他自然语言处理库中有没有办法把复杂的句子分解成简单的句子？例如:夕阳西下，凉风习习，公园美不胜收==>夕阳西下。一阵凉风吹来。公园太棒了。最佳答案这比看起来要复杂得多，因此您不太可能找到一个完全干净的方法。但是，在OpenNLP中使用英语解析器，我可以拿你的例句得到如下语法树:(S(NP(DTThe)(NNpark))(VP(VBZis)(ADJP(RBso)(JJwonderful))(SBAR(WHADVP(WRBwhen))(S(S(NP(DTthe)(NNsun))(VP(VBZis)(VP(VBGset

句子打断 section opennlp opennlp-tools python nlp nltk

python - 判断一个句子是英文概率的比较简单的方法是什么？

我有许多字符串(字符集合)代表不同语言的句子，比如说:Hello,mynameisGeorge.Dasbrotistgut....etc.我想为它们中的每一个分配分数(从0..1)，表明它们是英语句子的可能性。是否有公认的算法(或Python库)可以从中执行此操作？注意:我不关心英文句子的语法是否完美。最佳答案 Abayesianclassifier将是此任务的不错选择:>>>fromreverend.thomasimportBayes>>>g=Bayes()#guesser>>>g.train('french','Lasouri

句子 python 39 gt section string nlp bayesian

Python提取包含单词的句子

我正在尝试从文本中提取所有包含指定单词的句子。txt="Iliketoeatapple.Metoo.Let'sgobuysomeapples."txt="."+txtre.findall(r"\."+".+"+"apple"+".+"+"\.",txt)但它正在返回我:[".Iliketoeatapple.Metoo.Let'sgobuysomeapples."]代替:[".Iliketoeatapple.,"Let'sgobuysomeapples."]有什么帮助吗？最佳答案不需要正则表达式:>>>txt="Iliketoea

句子单词 34 section apple python regex text-segmentation

python - 如何获取句子中单词的长度？

我正在尝试获取句子中每个单词的长度。我知道你可以使用“len”函数，我只是不知道如何获取每个单词的长度。代替这个>>>s="pythonisprettyfuntouse">>>len(s)27>>>我想要这个6,2,6,3,2,3这是每个单词的实际长度。最佳答案试试这个，使用map()申请len()遍历句子中的每个单词，理解split()用句子中的每个单词创建一个列表:s="pythonisprettyfuntouse"map(len,s.split())#assumingPython2.xlist(map(len,s.spli

句子单词 code section python

python - 如何在 Python 中按句子拆分段落

我需要用Python解析段落中的句子。是否有现成的软件包可以执行此操作，或者我应该尝试在此处使用正则表达式？最佳答案 nltk.tokenize模块专为此而设计并处理边缘情况。例如:>>>fromnltkimporttokenize>>>p="GoodmorningDr.Adams.Thepatientiswaitingforyouinroomnumber3.">>>tokenize.sent_tokenize(p)['GoodmorningDr.Adams.','Thepatientiswaitingforyouinroomnu

何在段落 section tokenize gt python regex text-segmentation

python - 使用 gensim 的 Word2vec 训练在 10 万个句子后开始交换

我正在尝试使用一个大约有17万行的文件来训练word2vec模型，每行一个句子。我想我可能代表一个特殊的用例，因为“句子”有任意字符串而不是字典单词。每句(行)约100个字，每个“字”约20个字符，有“/”等字符，也有数字。训练代码很简单:#asshowninhttp://rare-technologies.com/word2vec-tutorial/importgensim,logging,oslogging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s',level=logging.INFO)classMySen

句子 Word2vec code 训练 python numpy blas gensim

python - 是否可以从 python 中的句子语料库重新训练 word2vec 模型(例如 GoogleNews-vectors-negative300.bin)？

我正在使用预先训练的谷歌新闻数据集，通过在python中使用Gensim库来获取词向量model=Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin',binary=True)加载模型后，我将训练评论句子单词转换为向量#readingallsentencesfromtrainingfilewithopen('restaurantSentences','r')asinfile:x_train=infile.readlines()#cleaningsentencesx_train=[review_to_word

语料 python sentences code GoogleNews-vectors-negative nlp gensim word2vec

20 21 222324 25 26