nltk-trainer

python - 通过 NLTK 从字符串中解析位置、人名、日期

我有很多字符串，如下所示，伊斯兰堡:首席大法官IftikharMuhammadChaudhry说国民账户卡拉奇，7月24日--警方声称已分别逮捕数名嫌疑人ALUMKULAM，斯里兰卡--随着灰腹云层开始遮盖焦黄我正在使用NLTK删除日期线部分并识别日期、位置和人名？使用pos标记我可以找到词性。但我需要确定位置、日期、人名。我该怎么做？更新:注意:我不想执行另一个http请求。我需要使用我自己的代码来解析它。如果有图书馆，可以使用它。更新:我使用ne_chunk。但运气不好。importnltkdefpchunk(t):w_tokens=nltk.word_tokenize(t)pt=

人名 python code section NNP nlp nltk corpus

python - NLTK - 多标签分类

我正在使用NLTK对文档进行分类——每个文档有1个标签，有10种类型的文档。对于文本提取，我正在清理文本(去除标点符号、去除html标记、小写)、去除nltk.corpus.stopwords，以及我自己的停用词集合。对于我的文档功能，我正在查看所有50k个文档，并按频率(frequency_words)收集前2k个词，然后为每个文档识别文档中的哪些词也在全局frequency_words中。然后我将每个文档作为{word:boolean}的hashmap传递到nltk.NaiveBayesClassifier(...)我有一个20:80的测试训练比率关于总文件数量。我遇到的问题:NL

python NLTK section 的 li nlp document-classification

python - AttributeError : can't set attribute from nltk. 图书导入*

安装nltk后我导入nltk然后使用nltk.download()但是当我尝试使用这个“fromnltk.bookimport*”时它显示属性错误。fromnltk.corpusimport*和fromnltkimport*工作正常我是自然语言处理的新手，所以我对此不太了解，请帮忙从nltk.book导入**NLTK书籍的介绍性示例*加载text1,...,text9和sent1,...,sent9键入文本或句子的名称以查看它。键入:“texts()”或“sents()”以列出Material。追溯(最近的调用最后):文件“”，第1行，在fromnltk.bookimport*文件“C

AttributeError attribute nltk code site-packages python python-3.5

python - 导入 nltk 时 Flask WSGI 应用程序挂起

我按照说明操作here在ubuntu上使用mod-wsgi创建一个部署到apache2的onefileflask-app。使用原始的flask应用程序时一切正常。但是，当将importnltk添加到flask应用程序时，apache挂起(没有500)。我使用python2.7和nltk2.0.4Others其他包似乎也有类似的问题。设置WSGIApplicationGroup%{GLOBAL}在VirtualHost配置中似乎有所帮助。但是，我仍然有相同的行为。有人遇到过同样的问题吗？感谢您的帮助!这是虚拟主机配置文件:#----ConfigureVirtualHostDefaults

python Flask Directory public_html html wsgi nltk

python - NLTK:如何遍历名词短语以返回字符串列表？

在NLTK中，如何遍历已解析的句子以返回名词短语字符串列表？我有两个目标:(1)创建名词短语列表，而不是使用“traverse()”方法打印它们。我目前使用StringIO来记录现有traverse()方法的输出。这不是一个可接受的解决方案。(2)反解析名词短语字符串，这样:'(NPMichael/NNPJackson/NNP)'变成'MichaelJackson'。NLTK中有反解析的方法吗？NLTK文档建议使用traverse()来查看名词短语，但是如何在这种递归方法中捕获“t”以便生成字符串名词短语列表？fromnltk.tagimportpos_tagdeftraverse(t

短语 python section tagged_sent parsing recursion nltk traversal

python - 默认的 nltk 词性标记集是什么？

在试验NLTK词性标注时，我注意到调用nltk.pos_tag的输出中有很多VBP标记。我注意到这个标签不在BrownCorpus词性标签集中。然而，它是UPenn标签集的一部分。nltk默认使用什么标签集？我在官方文档或apidocs中找不到这个。最佳答案 Ntlk使用PennTreebank标签集。看看这个链接http://nltk.org/api/nltk.tag.html 关于python-默认的nltk词性标记集是什么？，我们在StackOverflow上找到一个类似的问题：

python nltk section code nlp

python - 从 Python 的 NLTK 中的自定义文本生成随机句子？

我在使用Python下的NLTK时遇到问题，特别是.generate()方法。generate(self,length=100)Printrandomtext,generatedusingatrigramlanguagemodel.Parameters:*length(int)-Thelengthoftexttogenerate(default=100)这是我正在尝试的简化版本。importnltkwords='Thequickbrownfoxjumpsoverthelazydog'tokens=nltk.word_tokenize(words)text=nltk.Text(token

自定句子 self words lazy python random nltk

python - 使用 Python NLTK 对 trigrams 进行 Kneser-Ney 平滑

我正在尝试使用PythonNLTK通过Kneser-Ney平滑来平滑一组n-gram概率。不幸的是，整个文档相当稀疏。我正在尝试做的是:我将文本解析为三元组列表。从这个列表中，我创建了一个FreqDist，然后使用该FreqDist来计算KN平滑分布。不过我很确定，结果是完全错误的。当我对各个概率求和时，我得到的结果远远超过1。以这个代码示例为例:importnltkngrams=nltk.trigrams("Whatapieceofworkisman!hownobleinreason!howinfiniteinfaculty!in\formandmovinghowexpressand

Kneser-Ney trigrams 39 confess 0.00657894736842 python nlp nltk smoothing

python - 使用 NLTK 创建新语料库

我认为我的标题的答案通常是去阅读文档，但我浏览了NLTKbook但它没有给出答案。我是Python的新手。我有一堆.txt文件，我希望能够使用NLTK为语料库nltk_data提供的语料库函数。我已经尝试过PlaintextCorpusReader但我无法获得更多:>>>importnltk>>>fromnltk.corpusimportPlaintextCorpusReader>>>corpus_root='./'>>>newcorpus=PlaintextCorpusReader(corpus_root,'.*')>>>newcorpus.words()如何使用punkt分割new

语料 python corpus newcorpus code nlp nltk

python - 如何使用 Python NLTK 识别单个字符之间的搭配？

我想使用NLTK来识别特定日文汉字字符和中文汉字字符之间的搭配。与单词搭配一样，一些汉字序列比其他汉字序列更有可能出现。示例:中文和日文中的许多单词都是双字符双字母组——字符A和字符B(例如，日本=日本，日文中的ni-hon和中文中的ri-ben).给定字符A(日)，本作为字符B出现的可能性更大。所以字符日和本是搭配的。我想使用NLTK来找出这些问题的答案:(1)给定字符A，哪些字符最有可能是字符B？(2)给定字符B，哪些字符最有可能是字符A？(3)字符A和字符B在一个句子中同时出现的可能性有多大，即使它们没有并排出现？相关:如果我有一个汉字/汉字频率列表，我可以强制NLTK搭配模块只

搭配 python 39 collocations 流路 string nlp nltk linguistics

1 234 5 6