草庐IT

nltk_contrib

全部标签

python - 导入 nltk 时 PyCharm 打印 'True'

我使用带有Python3.6的Anaconda包管理器在Pycharm中运行以下代码print('before')importnltkprint('after')我在PyCharm的控制台中得到了这个结果。beforeTrueafter当我在Python命令行中运行它时,输出如预期的那样正常。看起来NLTK模块的导入语句正在打印True。如有任何想法,我们将不胜感激。我已经尝试过PyCharm中的InvalidateCaches/Restart选项 最佳答案 我对使用Anaconda感到厌烦,所以我最终卸载了它并从python.or

python - Nltk 斯坦福 pos 标记器错误 : Java command failed

我正在尝试使用nltk.tag.stanfordmodule用于标记句子(首先像wiki的示例),但我不断收到以下错误:Traceback(mostrecentcalllast):File"test.py",line28,inprintst.tag(word_tokenize('Whatistheairspeedofanunladenswallow?'))File"/usr/local/lib/python2.7/dist-packages/nltk/tag/stanford.py",line59,intagreturnself.tag_sents([tokens])[0]File"/

python - Django,如何使用 django.contrib.auth.models.User 通过 id 获取用户

我不知道如何通过id从django模型django.contrib.auth.models.User中获取用户...我想删除一个用户,所以我试图找到它那:User.objects.get(id=request.POST['id'])但它不起作用,并返回Usermatchingquerydoesnotexist.id由ajax发送:$("#dynamic-table").on('click','.member_delete_btn',function(){if(confirm("Areyousure?thememberwillbedeleted...")==true){$.ajax({t

python - TensorFlow - tf.layers 与 tf.contrib.layers

在TensorFlow中,tf.layers和tf.contrib.layers共享很多功能(标准2D卷积层、批量归一化层等)。这两者之间的区别仅仅是contrib.layers包仍然是实验性的,而layers包被认为是稳定的吗?或者一个正在被另一个取代?其他区别?为什么这两个是分开的? 最佳答案 您已经回答了自己的问题。tf.contrib官方文档中的描述命名空间是:contribmodulecontainingvolatileorexperimentalcode.因此tf.contrib保留用于实验性功能。此namespace中

python - 在 NLTK 和 Python 中创建自定义分类语料库

我遇到了一些与正则表达式和Python中的CategorizedPlaintextCorpusReader有关的问题。我想创建一个自定义分类语料库并在其上训练一个朴素贝叶斯分类器。我的问题如下:我想要两个类别,“pos”和“neg”。正文件都在一个目录中,main_dir/pos/*.txt,负文件在一个单独的目录中,main_dir/neg/*.txt。如何使用CategorizedPlaintextCorpusReader加载和标记pos目录中的所有正文件,并对负文件执行相同的操作?注意:该设置与Movie_reviews语料库(~nltk_data\corpora\movie_r

java - 使用 NLTK 使用 MaltParser 解析多个句子

有很多与MaltParser和/或NLTK相关的问题:MaltParserthrowingclassnotfoundexceptionHowtousemaltparserinpythonnltkMaltParserNotWorkinginPythonNLTKNLTKMaltParserwon'tparseDependencyparserusingNLTKandMaltParserDependencyParsingusingMaltParserandNLTKParsingwithMaltParserengmaltParserawtextwithMaltParserinJava现在,NLT

python - nltk 标记化和收缩

我正在使用nltk对文本进行标记,只是将句子提供给wordpunct_tokenizer。这会拆分收缩(例如,'don't'到'don'+"'"+'t'),但我想将它们保留为一个词。我正在改进我的方法以更精确地对文本进行标记化,因此除了简单的标记化之外,我还需要更深入地研究nltk标记化模块。我猜这很常见,我希望得到其他人的反馈,他们之前可能不得不处理过该特定问题。编辑:是的,我知道这是一个笼统的、乱七八糟的问题此外,作为nlp的新手,我是否需要担心收缩?编辑:SExprTokenizer或TreeBankWordTokenizer似乎可以满足我现在的需求。

python - 如何使用 NLTK 和 Python 标记和分块法语文本?

我在一个JSON文件中有30,000多篇法语文章。我想对个别文章和整篇文章进行一些文本分析。在我走得更远之前,我先从简单的目标开始:识别重要实体(人、地点、概念)发现这些实体的重要性(~=频率)随时间的显着变化(使用文章序列号作为时间的代表)到目前为止我采取的步骤:将数据导入python列表:importjsonjson_articles=open('articlefile.json')articlelist=json.load(json_articles)选择了一篇文章进行测试,并将正文文本连接成一个字符串:txt=''.join(data[10000]['body'])加载法语句子

python - 调用 NLTK 的索引 - 如何在使用的单词之前/之后获取文本?

我想知道concordace返回的实例之后是什么文本。因此,例如,如果您查看他们在'SearchingText'section中给出的示例,他们得到了单词“monstrous”的索引。您如何获得在monstrous实例之后立即出现的单词? 最佳答案 importnltkimportnltk.bookasbooktext1=book.text1c=nltk.ConcordanceIndex(text1.tokens,key=lambdas:s.lower())print([text1.tokens[offset+1]foroffset

python - 如何使用 Stanford NLP Tagger 和 NLTK 提高速度

有什么方法可以更高效地使用StandfordTagger?每次调用NLTK的包装器都会为每个分析的字符串启动一个新的java实例,这非常非常慢,尤其是在使用更大的外语模型时...http://www.nltk.org/api/nltk.tag.html#module-nltk.tag.stanford 最佳答案 找到解决方案。可以在servlet模式下运行POSTagger,然后通过HTTP连接到它。完美。http://nlp.stanford.edu/software/pos-tagger-faq.shtml#d例子在后台启动服务