我正在尝试在句子中提取主题,以便根据主题获得情感。我正在使用nltk在python2.7中用于此目的。以下面这句话为例:DonaldTrumpistheworstpresidentofUSA,butHillaryisbetterthanhim他我们可以看到DonaldTrump和Hillary是两个主题,以及与DonaldTrump相关的情绪是负数但与Hillary有关是积极的。到现在为止,我已经能够将这个句子分解成大块的名词短语,并且能够得到以下内容:(S(NPDonald/NNPTrump/NNP)is/VBZ(NPthe/DTworst/JJSpresident/NN)in/IN
因此,作为一个思想实验,我在python中编写了一个函数,该函数使用spaCy查找新闻文章的主题,然后将其替换为所选名词。问题是,它并不能很好地工作,我希望它能得到改进。我不太了解spaCy,而且文档有点难以理解。先上代码:doc=nlp(thetitle)fortextindoc:#subjectwouldbeiftext.dep_=="nsubj":subject=text.orth_#iobjforindirectobjectiftext.dep_=="iobj":indirect_object=text.orth_#dobjfordirectobjectiftext.dep_=
我正在尝试编写一种转换字幕文件的方法,以便总是每个字幕只有一个句子。我的想法是:对于每个副标题:1.1->我得到字幕时长1.2->计算characters_per_second1.3->使用它来存储(在dict_times_word_subtitle内)说出单词i所需的时间我从整篇文章中提取句子对于每个句子:3.1我存储(在dict_sentences_subtitle中)用特定单词说句子所需的时间(从中我可以得到说这些单词的持续时间)我创建了一个新的srt文件(字幕文件),它与原始srt文件同时开始,然后可以从说句子所需的持续时间中获取字幕时间。目前,我已经编写了以下代码:#----
在nltk或者其他自然语言处理库中有没有办法把复杂的句子分解成简单的句子?例如:夕阳西下,凉风习习,公园美不胜收==>夕阳西下。一阵凉风吹来。公园太棒了。 最佳答案 这比看起来要复杂得多,因此您不太可能找到一个完全干净的方法。但是,在OpenNLP中使用英语解析器,我可以拿你的例句得到如下语法树:(S(NP(DTThe)(NNpark))(VP(VBZis)(ADJP(RBso)(JJwonderful))(SBAR(WHADVP(WRBwhen))(S(S(NP(DTthe)(NNsun))(VP(VBZis)(VP(VBGset
我有许多字符串(字符集合)代表不同语言的句子,比如说:Hello,mynameisGeorge.Dasbrotistgut....etc.我想为它们中的每一个分配分数(从0..1),表明它们是英语句子的可能性。是否有公认的算法(或Python库)可以从中执行此操作?注意:我不关心英文句子的语法是否完美。 最佳答案 Abayesianclassifier将是此任务的不错选择:>>>fromreverend.thomasimportBayes>>>g=Bayes()#guesser>>>g.train('french','Lasouri
我正在尝试从文本中提取所有包含指定单词的句子。txt="Iliketoeatapple.Metoo.Let'sgobuysomeapples."txt="."+txtre.findall(r"\."+".+"+"apple"+".+"+"\.",txt)但它正在返回我:[".Iliketoeatapple.Metoo.Let'sgobuysomeapples."]代替:[".Iliketoeatapple.,"Let'sgobuysomeapples."]有什么帮助吗? 最佳答案 不需要正则表达式:>>>txt="Iliketoea
我正在尝试获取句子中每个单词的长度。我知道你可以使用“len”函数,我只是不知道如何获取每个单词的长度。代替这个>>>s="pythonisprettyfuntouse">>>len(s)27>>>我想要这个6,2,6,3,2,3这是每个单词的实际长度。 最佳答案 试试这个,使用map()申请len()遍历句子中的每个单词,理解split()用句子中的每个单词创建一个列表:s="pythonisprettyfuntouse"map(len,s.split())#assumingPython2.xlist(map(len,s.spli
我需要用Python解析段落中的句子。是否有现成的软件包可以执行此操作,或者我应该尝试在此处使用正则表达式? 最佳答案 nltk.tokenize模块专为此而设计并处理边缘情况。例如:>>>fromnltkimporttokenize>>>p="GoodmorningDr.Adams.Thepatientiswaitingforyouinroomnumber3.">>>tokenize.sent_tokenize(p)['GoodmorningDr.Adams.','Thepatientiswaitingforyouinroomnu
我正在尝试使用一个大约有17万行的文件来训练word2vec模型,每行一个句子。我想我可能代表一个特殊的用例,因为“句子”有任意字符串而不是字典单词。每句(行)约100个字,每个“字”约20个字符,有“/”等字符,也有数字。训练代码很简单:#asshowninhttp://rare-technologies.com/word2vec-tutorial/importgensim,logging,oslogging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s',level=logging.INFO)classMySen
我正在使用预先训练的谷歌新闻数据集,通过在python中使用Gensim库来获取词向量model=Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin',binary=True)加载模型后,我将训练评论句子单词转换为向量#readingallsentencesfromtrainingfilewithopen('restaurantSentences','r')asinfile:x_train=infile.readlines()#cleaningsentencesx_train=[review_to_word