草庐IT

python - 用 nltk 搜索相似的意思短语

我有一堆不相关的段落,我需要遍历它们以找到类似的事件,例如,在我寻找objectfalls的地方进行搜索,我为包含以下内容的文本找到一个bool值True:箱子从架子上掉下来灯泡在地上碎了一block石膏从天花板上掉下来并且False用于:责任落在莎拉身上温度突然下降我可以使用nltk来标记、标记并获得Wordnetsynsets,但我发现很难弄清楚如何将nltk的移动部件组合在一起以达到预期的结果。在寻找同义词集之前我应该​​chunk吗?我应该写一个上下文无关语法吗?从treebank标签翻译成Wordnet语法标签时是否有最佳实践?nltkbook中均未对此进行解释,我在nltk

python - 使用nltk进行通用同义词和词性处理

我正在尝试为句子中重要的单词(即不是“a”或“the”)创建通用同义词标识符,并且我正在使用python中的自然语言工具包(nltk)。我遇到的问题是nltk中的同义词查找器需要词性参数才能链接到它的同义词。我尝试解决这个问题是使用nltk中存在的简化词性标注器,然后减少第一个字母以便将此参数传递到同义词查找器中,但这不起作用。defsynonyms(Sentence):Keywords=[]Equivalence=WordNetLemmatizer()Stemmer=stem.SnowballStemmer('english')forwordinSentence:word=Equiv

Python 文本处理 : NLTK and pandas

我正在寻找一种在Python中构建可与额外数据一起使用的术语文档矩阵的有效方法。我有一些带有其他一些属性的文本数据。我想对文本进行一些分析,并且我希望能够将从文本中提取的特征(例如单个单词标记或LDA主题)与其他属性相关联。我的计划是将数据加载为pandas数据框,然后每个响应将代表一个文档。不幸的是,我遇到了一个问题:importpandasaspdimportnltkpd.options.display.max_colwidth=10000txt_data=pd.read_csv("data_file.csv",sep="|")txt=str(txt_data.comment)le

python - 在 nltk 中打断/分解复杂和复合句子

在nltk或者其他自然语言处理库中有没有办法把复杂的句子分解成简单的句子?例如:夕阳西下,凉风习习,公园美不胜收==>夕阳西下。一阵凉风吹来。公园太棒了。 最佳答案 这比看起来要复杂得多,因此您不太可能找到一个完全干净的方法。但是,在OpenNLP中使用英语解析器,我可以拿你的例句得到如下语法树:(S(NP(DTThe)(NNpark))(VP(VBZis)(ADJP(RBso)(JJwonderful))(SBAR(WHADVP(WRBwhen))(S(S(NP(DTthe)(NNsun))(VP(VBZis)(VP(VBGset

python - 使用 NLTK 在 Python 中获取大量名词(或形容词);或 Python Mad Libs

赞thisquestion,我有兴趣通过词性获取大量单词列表(一长串名词;形容词列表)以编程方式在其他地方使用。Thisanswer有一个使用WordNet数据库(SQL)格式的解决方案。有没有一种方法可以使用PythonNLTK中内置的语料库/工具来获取此类列表。我可以获取大量文本,对其进行解析,然后存储名词和形容词。但是考虑到内置的词典和其他工具,是否有一种更智能的方法来简单地提取NLTK数据集中已经存在的单词,并将其编码为名词/形容词(无论什么)?谢谢。 最佳答案 值得注意的是,Wordnet实际上是NLTK下载器默认包含的语

python nltk 朴素贝叶斯概率

有没有办法使用nltk.NaiveBayesClassifier.classify获得个体概率?我想查看分类概率以尝试制作置信度。显然,对于二元分类器,决策将是一个或另一个,但是是否有某种方法可以查看决策的内部运作方式?或者,我是否只需要编写自己的分类器?谢谢 最佳答案 nltk.NaiveBayesClassifier.prob_classify怎么样?http://nltk.org/api/nltk.classify.html#nltk.classify.naivebayes.NaiveBayesClassifier.prob_

python - 如何使用 python nltk 加速 stanford NER 的 NE 识别

首先,我将文件内容标记为句子,然后对每个句子调用StanfordNER。但是这个过程真的很慢。我知道如果我在整个文件内容上调用它会更快,但我在每个句子上调用它,因为我想在NE识别之前和之后为每个句子建立索引。st=NERTagger('stanford-ner/classifiers/english.all.3class.distsim.crf.ser.gz','stanford-ner/stanford-ner.jar')forfilenameinfilelist:sentences=sent_tokenize(filecontent)#breakfilecontentintosen

python - 如何在python nltk和wordnet中获取一个词/同义词集的所有下位词?

我有一个wordnet中所有名词的列表,现在我想只留下作为车辆的词并删除其余的词。我该怎么做?下面是我想做的伪代码,但我不知道如何让它工作forwordinwordlist:ifnot"vehicle"inwn.synsets(word):wordlist.remove(word) 最佳答案 fromnltk.corpusimportwordnetaswnvehicle=wn.synset('vehicle.n.01')typesOfVehicles=list(set([wforsinvehicle.closure(lambdas:

python - 使用 python2.7 和 nltk 将代词替换为其先行词

如标题所示,我正在尝试在字符串中查找代词并将其替换为它的先行词,例如:[in]:"theprincesslookedfromthepalace,shewashappy".[out]:"theprincesslookedfromthepalace,theprincesswashappy".我使用pos标签返回代词和名词。我需要知道如何在不知道句子的情况下替换,意思是如何在句子中指定主语以用它替换代词。有什么建议吗? 最佳答案 我不知道nltk包(从未使用过),但它似乎可以立即给出您的答案。如果您查看nltk.org上的解析树示例,它表

python - 使用 NLTK 导入外部树库式 BLLIP 语料库

我已经下载了BLLIP语料库并想将其导入NLTK。问题的答案中描述了我发现的一种方法HowtoreadcorpusofparsedsentencesusingNLTKinpython?.在那个答案中,他们正在为一个数据文件做这件事。我想收集它们。BLLIP语料库是几百万个文件的集合,每个文件都包含几个经过解析的句子。包含数据的主文件夹名为bllip_87_89_wsj,它包含3个子文件夹,1987、1988、1989(每年一个)。在子文件夹1987中,您有子文件夹,每个子文件夹包含许多与解析的句子相对应的文件。子文件夹的名称类似于w7_001(对于文件夹1987),文件名为w7_001