草庐IT

nltk-trainer

全部标签

python - 如何在 Heroku 中安装 NLTK 模块

嘿,我想在我的Heroku服务器上安装NLTKpos_tag。我怎么能这样做。请给我Heroku服务器系统的新步骤。 最佳答案 我刚刚向buildpack添加了官方nltk支持!只需添加一个包含您要安装的语料库列表的nltk.txt文件,一切都会按预期进行。 关于python-如何在Heroku中安装NLTK模块,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/18385303/

python - 将单词添加到 nltk 停止列表

我有一些代码可以从我的数据集中删除停用词,因为停用列表似乎没有删除大部分我也想要的词,我正在寻找向这个停用列表添加词,以便对于这种情况,它将删除它们。我用来删除停用词的代码是:word_list2=[w.strip()forwinword_listifw.strip()notinnltk.corpus.stopwords.words('english')]我不确定添加单词的正确语法,而且似乎无法在任何地方找到正确的语法。任何帮助表示赞赏。谢谢。 最佳答案 您可以简单地使用append方法向其中添加单词:stopwords=nltk.

python - NLTK 性能

好吧,我最近对自然语言处理很感兴趣:但是,到目前为止,我的大部分工作都使用C。我听说过NLTK,我不知道Python,但它似乎很容易学,而且它看起来像一门非常强大和有趣的语言。特别是,NLTK模块似乎非常非常适合我需要做的事情。但是,当使用samplecodeforNLTK时并将其粘贴到一个名为test.py的文件中,我注意到运行它需要非常非常长的时间!我在shell中这样调用它:timepython./test.py而在具有4GBRAM的2.4GHz机器上,它需要19.187秒!现在,也许这绝对是正常的,但我的印象是NTLK非常快;我可能弄错了,但有什么明显的地方我做错了吗?

python - 导入 nltk 时 PyCharm 打印 'True'

我使用带有Python3.6的Anaconda包管理器在Pycharm中运行以下代码print('before')importnltkprint('after')我在PyCharm的控制台中得到了这个结果。beforeTrueafter当我在Python命令行中运行它时,输出如预期的那样正常。看起来NLTK模块的导入语句正在打印True。如有任何想法,我们将不胜感激。我已经尝试过PyCharm中的InvalidateCaches/Restart选项 最佳答案 我对使用Anaconda感到厌烦,所以我最终卸载了它并从python.or

python - Nltk 斯坦福 pos 标记器错误 : Java command failed

我正在尝试使用nltk.tag.stanfordmodule用于标记句子(首先像wiki的示例),但我不断收到以下错误:Traceback(mostrecentcalllast):File"test.py",line28,inprintst.tag(word_tokenize('Whatistheairspeedofanunladenswallow?'))File"/usr/local/lib/python2.7/dist-packages/nltk/tag/stanford.py",line59,intagreturnself.tag_sents([tokens])[0]File"/

python - 在 NLTK 和 Python 中创建自定义分类语料库

我遇到了一些与正则表达式和Python中的CategorizedPlaintextCorpusReader有关的问题。我想创建一个自定义分类语料库并在其上训练一个朴素贝叶斯分类器。我的问题如下:我想要两个类别,“pos”和“neg”。正文件都在一个目录中,main_dir/pos/*.txt,负文件在一个单独的目录中,main_dir/neg/*.txt。如何使用CategorizedPlaintextCorpusReader加载和标记pos目录中的所有正文件,并对负文件执行相同的操作?注意:该设置与Movie_reviews语料库(~nltk_data\corpora\movie_r

java - 使用 NLTK 使用 MaltParser 解析多个句子

有很多与MaltParser和/或NLTK相关的问题:MaltParserthrowingclassnotfoundexceptionHowtousemaltparserinpythonnltkMaltParserNotWorkinginPythonNLTKNLTKMaltParserwon'tparseDependencyparserusingNLTKandMaltParserDependencyParsingusingMaltParserandNLTKParsingwithMaltParserengmaltParserawtextwithMaltParserinJava现在,NLT

python - nltk 标记化和收缩

我正在使用nltk对文本进行标记,只是将句子提供给wordpunct_tokenizer。这会拆分收缩(例如,'don't'到'don'+"'"+'t'),但我想将它们保留为一个词。我正在改进我的方法以更精确地对文本进行标记化,因此除了简单的标记化之外,我还需要更深入地研究nltk标记化模块。我猜这很常见,我希望得到其他人的反馈,他们之前可能不得不处理过该特定问题。编辑:是的,我知道这是一个笼统的、乱七八糟的问题此外,作为nlp的新手,我是否需要担心收缩?编辑:SExprTokenizer或TreeBankWordTokenizer似乎可以满足我现在的需求。

python - 如何使用 NLTK 和 Python 标记和分块法语文本?

我在一个JSON文件中有30,000多篇法语文章。我想对个别文章和整篇文章进行一些文本分析。在我走得更远之前,我先从简单的目标开始:识别重要实体(人、地点、概念)发现这些实体的重要性(~=频率)随时间的显着变化(使用文章序列号作为时间的代表)到目前为止我采取的步骤:将数据导入python列表:importjsonjson_articles=open('articlefile.json')articlelist=json.load(json_articles)选择了一篇文章进行测试,并将正文文本连接成一个字符串:txt=''.join(data[10000]['body'])加载法语句子

python - 调用 NLTK 的索引 - 如何在使用的单词之前/之后获取文本?

我想知道concordace返回的实例之后是什么文本。因此,例如,如果您查看他们在'SearchingText'section中给出的示例,他们得到了单词“monstrous”的索引。您如何获得在monstrous实例之后立即出现的单词? 最佳答案 importnltkimportnltk.bookasbooktext1=book.text1c=nltk.ConcordanceIndex(text1.tokens,key=lambdas:s.lower())print([text1.tokens[offset+1]foroffset