nltk_contrib

python - 使用 pandas 进行基于 NLTK 的文本处理

标点符号和数字，小写在使用nltk时不起作用。我的代码stopwords=nltk.corpus.stopwords.words('english')+list(string.punctuation)user_defined_stop_words=['st','rd','hong','kong']new_stop_words=stopwords+user_defined_stop_wordsdefpreprocess(text):return[wordforwordinword_tokenize(text)ifword.lower()notinnew_stop_wordsandnotw

python pandas code 39 preprocess string dataframe nltk

python - NLTK 数据已过时 - Python 3.4

我正在尝试为Python3.4安装NLTK。实际的NLTK模块似乎安装正常。然后我跑了importnltknltk.download()并选择下载所有内容。然而，完成后，窗口只显示“过时”。我尝试刷新和下载，但它仍然“过时”，如下所示:NLTKWindow1我在网上查看并尝试了各种修复方法，但还没有找到任何对我的案例有帮助的方法。我也尝试过手动查找缺失的部分，结果是'OpenMultilingualWordnet'和'Wordnet'。以下是我如何找到缺少的部分:OpenMultilingualWordnet.我该怎么办？我应该卸载并重新安装NLTK吗？我还没有真正找到删除包的方法(手

过时 python nltk code nltk_data download nlp wordnet

python - 使用 python nltk 查找两个网页之间的相似性？

我想找出两个网页是否相似。有人可以建议具有wordnet相似函数的pythonnltk是否有帮助以及如何？在这种情况下使用的最佳相似度函数是什么？最佳答案 spotsigsjoyceschan提到的论文解决了内容重复检测问题，其中包含大量值得深思的内容。如果您正在寻找关键术语的快速比较，nltk标准函数可能就足够了。使用nltk，您可以通过查找包含在WordNet中的synsets来提取术语的同义词>>>fromnltk.corpusimportwordnet>>>wordnet.synsets('donation')[Synse

python nltk strong code section nlp wordnet

python - 使用 NLTK 和 Python 检查两个单词之间的相似性

我有两个列表，我想检查两个列表中每个单词之间的相似度并找出最大相似度。这是我的代码，fromnltk.corpusimportwordnetlist1=['Compare','require']list2=['choose','copy','define','duplicate','find','how','identify','label','list','listen','locate','match','memorise','name','observe','omit','quote','read','recall','recite','recognise','record','

单词 python 39 list wordnet nltk similarity

python - 从 nltk word_tokenize 获取原始文本的索引

我正在使用nltk.word_tokenize对文本进行标记，我还想将原始原始文本中的索引获取到每个标记的第一个字符，即importnltkx='helloworld'tokens=nltk.word_tokenize(x)>>>['hello','world']我怎样才能得到与token的原始索引对应的数组[0,7]？最佳答案你也可以这样做:defspans(txt):tokens=nltk.word_tokenize(txt)offset=0fortokenintokens:offset=txt.find(token,off

word_tokenize tokenize token section 39 python text nltk

python - NLTK:使用数字分数而不是标签进行文档分类

根据一个项目，我一直在使用PythonNLTK和文档分类以及朴素贝叶斯分类器。据我从文档中了解到，如果您的不同文档被标记为pos或neg作为标签(或超过2个标签)，这将非常有效我正在处理的已经分类的文档没有标签，但它们有一个分数，一个介于0和5之间的float。我想做的是构建一个分类器，就像文档中的电影示例一样，但它会预测一段文本的分数，而不是标签。我相信文档中提到了这一点，但从未将其作为“数字特征的概率”进行进一步探索我既不是语言专家也不是统计学家，所以如果有人有这方面的例子，请与我分享，我将不胜感激。谢谢! 最佳答案您正在寻找

python NLTK section scikit-learn scikit

python - 亚洲语言情感分析的代码示例 - Python NLTK

这里有一个使用NLTK(python)进行情感分析的演示http://text-processing.com/demo/sentiment/.还有情感分析部分的教程http://streamhacker.com/2010/06/16/text-classification-sentiment-analysis-eliminate-low-information-features/http://streamhacker.com/2010/05/10/text-classification-sentiment-analysis-naive-bayes-classifier/http://n

亚洲语 python section text-classification-sentiment-ana noreferrer nlp nltk sentiment-analysis asianfonts

python - 属性错误 : module 'tensorflow.contrib.learn' has no attribute 'TensorFlowDNNClassifier'

这是我要执行的mltensorflow代码-importtensorflow.contrib.learnasskflowfromsklearnimportdatasets,metricsiris=datasets.load_iris()classifier=skflow.TensorFlowDNNClassifier(hidden_units=[10,20,10],n_classes=3)classifier.fit(iris.data,iris.target)score=metrics.accuracy_score(iris.target,classifier.predict(iri

amp TensorFlowDNNClassifier tensorflow iris classifier python machine-learning scikit-learn

python - NLTK 荷兰语命名实体识别

我正在尝试从荷兰语文本中提取命名实体。我用了nltk-trainer在conll2002荷兰语语料库上训练标注器和词block划分器。但是，chunker的parse方法没有检测到任何命名实体。这是我的代码:str='Christianeheefteenlam.'tagger=nltk.data.load('taggers/dutch.pickle')chunker=nltk.data.load('chunkers/dutch.pickle')str_tags=tagger.tag(nltk.word_tokenize(str))printstr_tagsstr_chunks=chun

荷兰语命名 39 code python nlp nltk named-entity-recognition

python - 用 nltk 搜索相似的意思短语

我有一堆不相关的段落，我需要遍历它们以找到类似的事件，例如，在我寻找objectfalls的地方进行搜索，我为包含以下内容的文本找到一个bool值True:箱子从架子上掉下来灯泡在地上碎了一block石膏从天花板上掉下来并且False用于:责任落在莎拉身上温度突然下降我可以使用nltk来标记、标记并获得Wordnetsynsets，但我发现很难弄清楚如何将nltk的移动部件组合在一起以达到预期的结果。在寻找同义词集之前我应该chunk吗？我应该写一个上下文无关语法吗？从treebank标签翻译成Wordnet语法标签时是否有最佳实践？nltkbook中均未对此进行解释，我在nltk

短语 python strong code section search nlp nltk

23 24 252627 28 29