草庐IT

nltk-trainer

全部标签

python - 通过 NLTK 从字符串中解析位置、人名、日期

我有很多字符串,如下所示,伊斯兰堡:首席大法官IftikharMuhammadChaudhry说国民账户卡拉奇,7月24日--警方声称已分别逮捕数名嫌疑人ALUMKULAM,斯里兰卡--随着灰腹云层开始遮盖焦黄我正在使用NLTK删除日期线部分并识别日期、位置和人名?使用pos标记我可以找到词性。但我需要确定位置、日期、人名。我该怎么做?更新:注意:我不想执行另一个http请求。我需要使用我自己的代码来解析它。如果有图书馆,可以使用它。更新:我使用ne_chunk。但运气不好。importnltkdefpchunk(t):w_tokens=nltk.word_tokenize(t)pt=

python - NLTK - 多标签分类

我正在使用NLTK对文档进行分类——每个文档有1个标签,有10种类型的文档。对于文本提取,我正在清理文本(去除标点符号、去除html标记、小写)、去除nltk.corpus.stopwords,以及我自己的停用词集合。对于我的文档功能,我正在查看所有50k个文档,并按频率(frequency_words)收集前2k个词,然后为每个文档识别文档中的哪些词也在全局frequency_words中。然后我将每个文档作为{word:boolean}的hashmap传递到nltk.NaiveBayesClassifier(...)我有一个20:80的测试训练比率关于总文件数量。我遇到的问题:NL

python - AttributeError : can't set attribute from nltk. 图书导入*

安装nltk后我导入nltk然后使用nltk.download()但是当我尝试使用这个“fromnltk.bookimport*”时它显示属性错误。fromnltk.corpusimport*和fromnltkimport*工作正常我是自然语言处理的新手,所以我对此不太了解,请帮忙从nltk.book导入**NLTK书籍的介绍性示例*加载text1,...,text9和sent1,...,sent9键入文本或句子的名称以查看它。键入:“texts()”或“sents()”以列出Material。追溯(最近的调用最后):文件“”,第1行,在fromnltk.bookimport*文件“C

python - 导入 nltk 时 Flask WSGI 应用程序挂起

我按照说明操作here在ubuntu上使用mod-wsgi创建一个部署到apache2的onefileflask-app。使用原始的flask应用程序时一切正常。但是,当将importnltk添加到flask应用程序时,apache挂起(没有500)。我使用python2.7和nltk2.0.4Others其他包似乎也有类似的问题。设置WSGIApplicationGroup%{GLOBAL}在VirtualHost配置中似乎有所帮助。但是,我仍然有相同的行为。有人遇到过同样的问题吗?感谢您的帮助!这是虚拟主机配置文件:#----ConfigureVirtualHostDefaults

python - NLTK:如何遍历名词短语以返回字符串列表?

在NLTK中,如何遍历已解析的句子以返回名词短语字符串列表?我有两个目标:(1)创建名词短语列表,而不是使用“traverse()”方法打印它们。我目前使用StringIO来记录现有traverse()方法的输出。这不是一个可接受的解决方案。(2)反解析名词短语字符串,这样:'(NPMichael/NNPJackson/NNP)'变成'MichaelJackson'。NLTK中有反解析的方法吗?NLTK文档建议使用traverse()来查看名词短语,但是如何在这种递归方法中捕获“t”以便生成字符串名词短语列表?fromnltk.tagimportpos_tagdeftraverse(t

python - 默认的 nltk 词性标记集是什么?

在试验NLTK词性标注时,我注意到调用nltk.pos_tag的输出中有很多VBP标记。我注意到这个标签不在BrownCorpus词性标签集中。然而,它是UPenn标签集的一部分。nltk默认使用什么标签集?我在官方文档或apidocs中找不到这个。 最佳答案 Ntlk使用PennTreebank标签集。看看这个链接http://nltk.org/api/nltk.tag.html 关于python-默认的nltk词性标记集是什么?,我们在StackOverflow上找到一个类似的问题:

python - 从 Python 的 NLTK 中的自定义文本生成随机句子?

我在使用Python下的NLTK时遇到问题,特别是.generate()方法。generate(self,length=100)Printrandomtext,generatedusingatrigramlanguagemodel.Parameters:*length(int)-Thelengthoftexttogenerate(default=100)这是我正在尝试的简化版本。importnltkwords='Thequickbrownfoxjumpsoverthelazydog'tokens=nltk.word_tokenize(words)text=nltk.Text(token

python - 使用 Python NLTK 对 trigrams 进行 Kneser-Ney 平滑

我正在尝试使用PythonNLTK通过Kneser-Ney平滑来平滑一组n-gram概率。不幸的是,整个文档相当稀疏。我正在尝试做的是:我将文本解析为三元组列表。从这个列表中,我创建了一个FreqDist,然后使用该FreqDist来计算KN平滑分布。不过我很确定,结果是完全错误的。当我对各个概率求和时,我得到的结果远远超过1。以这个代码示例为例:importnltkngrams=nltk.trigrams("Whatapieceofworkisman!hownobleinreason!howinfiniteinfaculty!in\formandmovinghowexpressand

python - 使用 NLTK 创建新语料库

我认为我的标题的答案通常是去阅读文档,但我浏览了NLTKbook但它没有给出答案。我是Python的新手。我有一堆.txt文件,我希望能够使用NLTK为语料库nltk_data提供的语料库函数。我已经尝试过PlaintextCorpusReader但我无法获得更多:>>>importnltk>>>fromnltk.corpusimportPlaintextCorpusReader>>>corpus_root='./'>>>newcorpus=PlaintextCorpusReader(corpus_root,'.*')>>>newcorpus.words()如何使用punkt分割new

python - 如何使用 Python NLTK 识别单个字符之间的搭配?

我想使用NLTK来识别特定日文汉字字符和中文汉字字符之间的搭配。与单词搭配一样,一些汉字序列比其他汉字序列更有可能出现。示例:中文和日文中的许多单词都是双字符双字母组——字符A和字符B(例如,日本=日本,日文中的ni-hon和中文中的ri-ben).给定字符A(日),本作为字符B出现的可能性更大。所以字符日和本是搭配的。我想使用NLTK来找出这些问题的答案:(1)给定字符A,哪些字符最有可能是字符B?(2)给定字符B,哪些字符最有可能是字符A?(3)字符A和字符B在一个句子中同时出现的可能性有多大,即使它们没有并排出现?相关:如果我有一个汉字/汉字频率列表,我可以强制NLTK搭配模块只