NLTK

python - 除非路径是绝对路径，否则引用 Flask 应用程序中的目录不起作用

我将nltk数据下载到我的Flask应用程序的数据目录中。这些View驻留在与数据目录处于同一级别的另一个目录中的蓝图中。在View中，我试图设置数据的路径，但它不起作用。nltk.data.path.append('../nltk_data/')这行不通。如果我使用整个路径，它确实有效。nltk.data.path.append('/home/username/myapp/app/nltk_data/')为什么第一种形式不起作用？如何正确引用数据的位置？最佳答案在Python(和大多数语言)中，代码在包中的位置与运行程序时的工

绝对 python code section path flask nltk

python - NLTK - 自动翻译相似词

总体目标:我正在使用NLTK和Gensim在Python中制作产品评论的LDA模型。我想在不同的n-gram上运行它。问题:unigrams一切都很好，但是当我运行bigrams时，我开始得到包含重复信息的主题。例如，主题1可能包含:['goodproduct','goodvalue']，主题4可能包含:['greatproduct','greatvalue']。对于人类来说，这些显然传达了相同的信息，但显然'goodproduct'和'greatproduct'是不同的二元语法。我如何通过算法确定'goodproduct'和'greatproduct'是否足够相似，以便我可以将其中一

python - 通过 NLTK 从字符串中解析位置、人名、日期

我有很多字符串，如下所示，伊斯兰堡:首席大法官IftikharMuhammadChaudhry说国民账户卡拉奇，7月24日--警方声称已分别逮捕数名嫌疑人ALUMKULAM，斯里兰卡--随着灰腹云层开始遮盖焦黄我正在使用NLTK删除日期线部分并识别日期、位置和人名？使用pos标记我可以找到词性。但我需要确定位置、日期、人名。我该怎么做？更新:注意:我不想执行另一个http请求。我需要使用我自己的代码来解析它。如果有图书馆，可以使用它。更新:我使用ne_chunk。但运气不好。importnltkdefpchunk(t):w_tokens=nltk.word_tokenize(t)pt=

人名 python code section NNP nlp nltk corpus

python - NLTK - 多标签分类

我正在使用NLTK对文档进行分类——每个文档有1个标签，有10种类型的文档。对于文本提取，我正在清理文本(去除标点符号、去除html标记、小写)、去除nltk.corpus.stopwords，以及我自己的停用词集合。对于我的文档功能，我正在查看所有50k个文档，并按频率(frequency_words)收集前2k个词，然后为每个文档识别文档中的哪些词也在全局frequency_words中。然后我将每个文档作为{word:boolean}的hashmap传递到nltk.NaiveBayesClassifier(...)我有一个20:80的测试训练比率关于总文件数量。我遇到的问题:NL

python NLTK section 的 li nlp document-classification

python - RegEx Tokenizer : split text into words, 数字、标点符号和空格(不要删除任何内容)

我几乎在thisthread中找到了这个问题的答案(样本偏差的答案)；但是我需要将短语拆分为单词、数字、标点符号和空格/制表符。我还需要它来保留每件事情发生的顺序(该线程中的代码已经这样做了)。所以，我发现的是这样的:fromnltk.tokenizeimport*txt="Todayit's07.May2011.Or2.999."regexp_tokenize(txt,pattern=r'\w+([.,]\w+)*|\S+')['Today','it',"'s",'07.May','2011','.','Or','2.999','.']但这是我需要产生的那种列表:['Today','

Tokenizer python 39 section 34 regex nltk tokenize

python - 朴素贝叶斯分类器错误

嘿，我正在尝试使用朴素贝叶斯分类器对一些文本进行分类。我正在使用NLTK。每当我使用classify()方法测试分类器时，它总是为第一项返回正确的分类，并为我分类的所有其他文本行返回相同的分类。以下是我的代码:fromnltk.corpusimportmovie_reviewsfromnltk.tokenizeimportword_tokenizeimportnltkimportrandomimportnltk.datadocuments=[(list(movie_reviews.words(fileid)),category)forcategoryinmovie_reviews.ca

贝叶朴素 word features words python nltk

python - 如何标记没有空格分隔符的连续单词？

我将Python与nltk结合使用。我需要处理一些没有空格的英文文本，但是nltk中的word_tokenize函数无法处理这样的问题。那么如何在没有任何空格的情况下标记文本。Python有什么工具吗？最佳答案我不知道有这样的工具，但你的问题的解决方案取决于语言。对于土耳其语，您可以逐个字母扫描输入文本并将字母累积成一个词。当您确定累积的单词形成字典中的有效单词时，您将其保存为单独的标记，删除用于累积新单词的缓冲区并继续该过程。您可以针对英语尝试这样做，但我假设您可能会发现某个单词的结尾可能是某个字典单词的开头，这会给您带来一些

单词 python section 土耳其语 nltk tokenize

python - 如何在 Python 中取消词干？

我想知道我是否可以将它们解压缩为正常形式？问题是我有数千个不同形式的单词，例如吃、吃、吃、吃等等，我需要计算每个词的出现频率。所有这些-吃、吃、吃、吃等都将计入吃，因此我使用了词干提取。但是问题的下一部分要求我在数据中找到相似的词，我正在使用nltk的同义词集来计算词之间的Wu-Palmer相似度。问题是nltk的同义词集不会对词干词起作用，或者至少在这段代码中它们不会。checkiftwowordsarerelatedtoeachother我应该怎么做？有没有办法取消词干？最佳答案我认为一个好的方法就像在https://sta

何在 python 39 code section nlp nltk

python - AttributeError : can't set attribute from nltk. 图书导入*

安装nltk后我导入nltk然后使用nltk.download()但是当我尝试使用这个“fromnltk.bookimport*”时它显示属性错误。fromnltk.corpusimport*和fromnltkimport*工作正常我是自然语言处理的新手，所以我对此不太了解，请帮忙从nltk.book导入**NLTK书籍的介绍性示例*加载text1,...,text9和sent1,...,sent9键入文本或句子的名称以查看它。键入:“texts()”或“sents()”以列出Material。追溯(最近的调用最后):文件“”，第1行，在fromnltk.bookimport*文件“C

AttributeError attribute nltk code site-packages python python-3.5

python - 导入 nltk 时 Flask WSGI 应用程序挂起

我按照说明操作here在ubuntu上使用mod-wsgi创建一个部署到apache2的onefileflask-app。使用原始的flask应用程序时一切正常。但是，当将importnltk添加到flask应用程序时，apache挂起(没有500)。我使用python2.7和nltk2.0.4Others其他包似乎也有类似的问题。设置WSGIApplicationGroup%{GLOBAL}在VirtualHost配置中似乎有所帮助。但是，我仍然有相同的行为。有人遇到过同样的问题吗？感谢您的帮助!这是虚拟主机配置文件:#----ConfigureVirtualHostDefaults

python Flask Directory public_html html wsgi nltk

1 234 5 6