草庐IT

nltk_contrib

全部标签

python - 使用 pandas 进行基于 NLTK 的文本处理

标点符号和数字,小写在使用nltk时不起作用。我的代码stopwords=nltk.corpus.stopwords.words('english')+list(string.punctuation)user_defined_stop_words=['st','rd','hong','kong']new_stop_words=stopwords+user_defined_stop_wordsdefpreprocess(text):return[wordforwordinword_tokenize(text)ifword.lower()notinnew_stop_wordsandnotw

python - NLTK 数据已过时 - Python 3.4

我正在尝试为Python3.4安装NLTK。实际的NLTK模块似乎安装正常。然后我跑了importnltknltk.download()并选择下载所有内容。然而,完成后,窗口只显示“过时”。我尝试刷新和下载,但它仍然“过时”,如下所示:NLTKWindow1我在网上查看并尝试了各种修复方法,但还没有找到任何对我的案例有帮助的方法。我也尝试过手动查找缺失的部分,结果是'OpenMultilingualWordnet'和'Wordnet'。以下是我如何找到缺少的部分:OpenMultilingualWordnet.我该怎么办?我应该卸载并重新安装NLTK吗?我还没有真正找到删除包的方法(手

python - 使用 python nltk 查找两个网页之间的相似性?

我想找出两个网页是否相似。有人可以建议具有wordnet相似函数的pythonnltk是否有帮助以及如何?在这种情况下使用的最佳相似度函数是什么? 最佳答案 spotsigsjoyceschan提到的论文解决了内容重复检测问题,其中包含大量值得深思的内容。如果您正在寻找关键术语的快速比较,nltk标准函数可能就足够了。使用nltk,您可以通过查找包含在WordNet中的synsets来提取术语的同义词>>>fromnltk.corpusimportwordnet>>>wordnet.synsets('donation')[Synse

python - 使用 NLTK 和 Python 检查两个单词之间的相似性

我有两个列表,我想检查两个列表中每个单词之间的相似度并找出最大相似度。这是我的代码,fromnltk.corpusimportwordnetlist1=['Compare','require']list2=['choose','copy','define','duplicate','find','how','identify','label','list','listen','locate','match','memorise','name','observe','omit','quote','read','recall','recite','recognise','record','

python - 从 nltk word_tokenize 获取原始文本的索引

我正在使用nltk.word_tokenize对文本进行标记,我还想将原始原始文本中的索引获取到每个标记的第一个字符,即importnltkx='helloworld'tokens=nltk.word_tokenize(x)>>>['hello','world']我怎样才能得到与token的原始索引对应的数组[0,7]? 最佳答案 你也可以这样做:defspans(txt):tokens=nltk.word_tokenize(txt)offset=0fortokenintokens:offset=txt.find(token,off

python - NLTK:使用数字分数而不是标签进行文档分类

根据一个项目,我一直在使用PythonNLTK和文档分类以及朴素贝叶斯分类器。据我从文档中了解到,如果您的不同文档被标记为pos或neg作为标签(或超过2个标签),这将非常有效我正在处理的已经分类的文档没有标签,但它们有一个分数,一个介于0和5之间的float。我想做的是构建一个分类器,就像文档中的电影示例一样,但它会预测一段文本的分数,而不是标签。我相信文档中提到了这一点,但从未将其作为“数字特征的概率”进行进一步探索我既不是语言专家也不是统计学家,所以如果有人有这方面的例子,请与我分享,我将不胜感激。谢谢! 最佳答案 您正在寻找

python - 亚洲语言情感分析的代码示例 - Python NLTK

这里有一个使用NLTK(python)进行情感分析的演示http://text-processing.com/demo/sentiment/.还有情感分析部分的教程http://streamhacker.com/2010/06/16/text-classification-sentiment-analysis-eliminate-low-information-features/http://streamhacker.com/2010/05/10/text-classification-sentiment-analysis-naive-bayes-classifier/http://n

python - 属性错误 : module 'tensorflow.contrib.learn' has no attribute 'TensorFlowDNNClassifier'

这是我要执行的mltensorflow代码-importtensorflow.contrib.learnasskflowfromsklearnimportdatasets,metricsiris=datasets.load_iris()classifier=skflow.TensorFlowDNNClassifier(hidden_units=[10,20,10],n_classes=3)classifier.fit(iris.data,iris.target)score=metrics.accuracy_score(iris.target,classifier.predict(iri

python - NLTK 荷兰语命名实体识别

我正在尝试从荷兰语文本中提取命名实体。我用了nltk-trainer在conll2002荷兰语语料库上训练标注器和词block划分器。但是,chunker的parse方法没有检测到任何命名实体。这是我的代码:str='Christianeheefteenlam.'tagger=nltk.data.load('taggers/dutch.pickle')chunker=nltk.data.load('chunkers/dutch.pickle')str_tags=tagger.tag(nltk.word_tokenize(str))printstr_tagsstr_chunks=chun

python - 用 nltk 搜索相似的意思短语

我有一堆不相关的段落,我需要遍历它们以找到类似的事件,例如,在我寻找objectfalls的地方进行搜索,我为包含以下内容的文本找到一个bool值True:箱子从架子上掉下来灯泡在地上碎了一block石膏从天花板上掉下来并且False用于:责任落在莎拉身上温度突然下降我可以使用nltk来标记、标记并获得Wordnetsynsets,但我发现很难弄清楚如何将nltk的移动部件组合在一起以达到预期的结果。在寻找同义词集之前我应该​​chunk吗?我应该写一个上下文无关语法吗?从treebank标签翻译成Wordnet语法标签时是否有最佳实践?nltkbook中均未对此进行解释,我在nltk