草庐IT

nltk_contrib

全部标签

python - 使用Python从nltk树结构中提取特定的叶子值

我对NLTK的树函数有一些疑问。我正在尝试从树结构中提取某个单词,如下所示。test=Tree.parse('(ROOT(SBARQ(WHADVP(WRBHow))(SQ(VBPdo)(NP(PRPyou))(VP(VBask)(NP(DTa)(JJtotal)(NNstranger))(PRT(RPout))(PP(INon)(NP(DTa)(NNdate)))))))')print"Inputtree:",testprinttest.leaves()(SBARQ(WHADVP(WRBHow))(SQ(VBPdo)(NP(PRPyou))(VP(VBask)(NP(DTa)(JJto

python - 如何在 python 中使用 NLTK 从原始文本中提取地址?

我有这段文字'''Hi,Mr.SamD.Richardsliveshere,44West22ndStreet,NewYork,NY12345.Canyoucontacthimnow?Ifyouneedanyhelp,callmeon12345678'''.如何使用NLTK从上述文本中提取地址部分?我试过StanfordNERTagger,它只给我NewYork作为位置。如何解决? 最佳答案 绝对是正则表达式:)有点像importretxt=...regexp="[0-9]{1,3}.+,.+,[A-Z]{2}[0-9]{5}"add

python - 如何在 Django 1.4(使用一台 Apache 服务器)中使用 django.contrib.staticfiles 提供管理静态文件?

Django建议我,如果我只使用一台服务器(Apache)来提供动态和静态文件,那么Ishouldservestaticfilesusingdjango.contrib.staticfiles.所以在我的settings.py中,我已经将django.contrib.staticfiles加载到我的INSTALLED_APPS和django.core.context_processors.static到我的TEMPLATE_CONTEXT_PROCESSORS。我在管理模板中注意到它链接到这样的静态文件(来自index.html):{%loadi18nadmin_static%}{%b

python - NLTK - 自动翻译相似词

总体目标:我正在使用NLTK和Gensim在Python中制作产品评论的LDA模型。我想在不同的n-gram上运行它。问题:unigrams一切都很好,但是当我运行bigrams时,我开始得到包含重复信息的主题。例如,主题1可能包含:['goodproduct','goodvalue'],主题4可能包含:['greatproduct','greatvalue']。对于人类来说,这些显然传达了相同的信息,但显然'goodproduct'和'greatproduct'是不同的二元语法。我如何通过算法确定'goodproduct'和'greatproduct'是否足够相似,以便我可以将其中一

python - 通过 NLTK 从字符串中解析位置、人名、日期

我有很多字符串,如下所示,伊斯兰堡:首席大法官IftikharMuhammadChaudhry说国民账户卡拉奇,7月24日--警方声称已分别逮捕数名嫌疑人ALUMKULAM,斯里兰卡--随着灰腹云层开始遮盖焦黄我正在使用NLTK删除日期线部分并识别日期、位置和人名?使用pos标记我可以找到词性。但我需要确定位置、日期、人名。我该怎么做?更新:注意:我不想执行另一个http请求。我需要使用我自己的代码来解析它。如果有图书馆,可以使用它。更新:我使用ne_chunk。但运气不好。importnltkdefpchunk(t):w_tokens=nltk.word_tokenize(t)pt=

python - NLTK - 多标签分类

我正在使用NLTK对文档进行分类——每个文档有1个标签,有10种类型的文档。对于文本提取,我正在清理文本(去除标点符号、去除html标记、小写)、去除nltk.corpus.stopwords,以及我自己的停用词集合。对于我的文档功能,我正在查看所有50k个文档,并按频率(frequency_words)收集前2k个词,然后为每个文档识别文档中的哪些词也在全局frequency_words中。然后我将每个文档作为{word:boolean}的hashmap传递到nltk.NaiveBayesClassifier(...)我有一个20:80的测试训练比率关于总文件数量。我遇到的问题:NL

python - 如何关闭 tf.contrib.learn Estimator 中的 events.out.tfevents 文件

在tensorflow.contrib.learn中使用estimator.Estimator时,在训练和预测之后,modeldir中有这些文件:p>检查点events.out.tfevents.1487956647events.out.tfevents.1487957016图表.pbtxtmodel.ckpt-101.data-00000-of-00001model.ckpt-101.indexmodel.ckpt-101.meta当图形复杂或变量数量大时,graph.pbtxt文件和事件文件可能会非常大。这是一种不写这些文件的方法吗?由于模型重新加载只需要检查点文件,因此删除它们不

python - AttributeError : can't set attribute from nltk. 图书导入*

安装nltk后我导入nltk然后使用nltk.download()但是当我尝试使用这个“fromnltk.bookimport*”时它显示属性错误。fromnltk.corpusimport*和fromnltkimport*工作正常我是自然语言处理的新手,所以我对此不太了解,请帮忙从nltk.book导入**NLTK书籍的介绍性示例*加载text1,...,text9和sent1,...,sent9键入文本或句子的名称以查看它。键入:“texts()”或“sents()”以列出Material。追溯(最近的调用最后):文件“”,第1行,在fromnltk.bookimport*文件“C

python - 导入 nltk 时 Flask WSGI 应用程序挂起

我按照说明操作here在ubuntu上使用mod-wsgi创建一个部署到apache2的onefileflask-app。使用原始的flask应用程序时一切正常。但是,当将importnltk添加到flask应用程序时,apache挂起(没有500)。我使用python2.7和nltk2.0.4Others其他包似乎也有类似的问题。设置WSGIApplicationGroup%{GLOBAL}在VirtualHost配置中似乎有所帮助。但是,我仍然有相同的行为。有人遇到过同样的问题吗?感谢您的帮助!这是虚拟主机配置文件:#----ConfigureVirtualHostDefaults

python - NLTK:如何遍历名词短语以返回字符串列表?

在NLTK中,如何遍历已解析的句子以返回名词短语字符串列表?我有两个目标:(1)创建名词短语列表,而不是使用“traverse()”方法打印它们。我目前使用StringIO来记录现有traverse()方法的输出。这不是一个可接受的解决方案。(2)反解析名词短语字符串,这样:'(NPMichael/NNPJackson/NNP)'变成'MichaelJackson'。NLTK中有反解析的方法吗?NLTK文档建议使用traverse()来查看名词短语,但是如何在这种递归方法中捕获“t”以便生成字符串名词短语列表?fromnltk.tagimportpos_tagdeftraverse(t