nltk

python - 如何过滤单词排列以仅找到语义正确的 ngram？ (Python 3，NLTK)

我想从一个包含200个单词的列表中创建一些排列组合——这显然会产生一个问题，因为这会导致可能的排列组合数量多得离谱(一个短语中最多5个单词)。为了有效地限制这个数字，我有一个双管齐下的攻击:将单词通过POS过滤器，以便仅创建语言上合理的短语，并且过滤那些实际ngram的排列——即具有高PMI/可能性得分。这个概念的第二部分让我感到疑惑——我知道NLTK提供了查找ngram的能力，但我看到的每个示例都分析了一个语料库，这是有道理的，因为需要freqdist。但是，是否可以找到单词排列的PMI？是否可以根据自定义语料库中的常见搭配找到我的单词排列的PMI分数？可以手动完成吗？例如，虽然排列

单词 python 语料 section strong python-3.x nltk linguistics

python - 使用 NLTK 提取关系

这是一个follow-upofmyquestion.我正在使用nltk来解析人员、组织及其关系。使用thisexample，我能够创建大量的人和组织；但是，我在nltk.sem.extract_rel命令中遇到错误:AttributeError:'Tree'objecthasnoattribute'text'完整代码如下:importnltkimportre#billgatesbiofromhttp://www.reuters.com/finance/stocks/officerProfile?symbol=MSFT.O&officerId=28066withopen('billgat

python NLTK 39 sentences nlp

python - nltk 词语料库不包含 "okay"？

NLTK词语料库中没有短语“okay”、“okay”、“Okay”？>fromnltk.corpusimportwords>words.words().__contains__("check")>True>words.words().__contains__("okay")>False>len(words.words())>236736有什么想法吗？最佳答案长话短说fromnltk.corpusimportwordsfromnltk.corpusimportwordnetmanywords=words.words()+wordn

语料 amp words code section python dictionary nltk corpus

python - NLTK 中的 TypeError : must be unicode, 不是 str

我正在使用python2.7、nltk3.2.1和python-crfsuite0.8.4。我正在关注此页面:http://www.nltk.org/api/nltk.tag.html?highlight=stanford#nltk.tag.stanford.NERTagger对于nltk.tag.crf模块。首先我只是运行这个fromnltk.tagimportCRFTaggerct=CRFTagger()train_data=[[('dfd','dfd')]]ct.train(train_data,"abc")我也试过了f=open("abc","wb")ct.train(trai

TypeError unicode code section nltk python crf

python - 如何使用 nltk 正则表达式模式来提取特定的短语 block ？

我写了下面的正则表达式来标记某些短语模式pattern="""P2:{+?*+**}P1:{?+?*?*+}P3:{}P4:{}"""这个模式会正确地标记一个短语，例如:a='Thepizzawasgoodbutpastawasbad'并用2个短语给出所需的输出:披萨不错意大利面不好吃但是，如果我的句子是这样的:a='Thepizzawasawesomeandbrilliant'只匹配短语:'pizzawasawesome'而不是所需的:'pizzawasawesomeandbrilliant'我如何将正则表达式模式也纳入我的第二个示例？最佳答案

短语 python 39 gt code regex nlp nltk text-chunking

python - Python 中 NLTK 工具包的默认分块器是什么？

我正在使用他们的默认POS标记和默认标记化..这似乎足够了。我也想要他们的默认分block器。我正在阅读NLTK工具包书籍，但他们似乎没有默认分block器？最佳答案您可以使用nltk.ne_chunk()方法开箱即用命名实体分block。它需要一个POS标记的元组列表:nltk.ne_chunk([('Barack','NNP'),('Obama','NNP'),('lives','NNS'),('in','IN'),('华盛顿','NNP')])结果:Tree('S',[Tree('PERSON',[('Barack','N

工具包 python section NNP nlp nltk chunking

java - Python 的 NLTK 与相关的 Java 库？

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭6年前。Improvethisquestion我在以前的Java项目中使用了LingPipe、斯坦福的NER、RiTa和各种句子相似度库，这些项目专注于大量英文文本的文本(预处理)处理(索引、xml标记、主题检测等)(大约10,000个文档加起来超过1gb的文本)。也许我是一个糟糕的Java程序员，但当我切换到不同的语料库时，我发现自己输入了很多代码并使用了很多库。总的来说，我觉得可能有更好的工具来完成这项工作。我想我的问题是，切换到

Python java section class notice information-retrieval nltk wordnet

python - 导入错误 : No module named 'nltk.tokenize' ; 'nltk' is not a package

我在Windows7的pycharmIDE中使用python3.5.2，但在导入nltk包时遇到问题。importnltk出现以下错误:Traceback(mostrecentcalllast):File"",line1,inFile"C:\ProgramFiles(x86)\JetBrains\PyCharmCommunityEdition2016.2.3\helpers\pydev\_pydev_bundle\pydev_import_hook.py",line21,indo_importmodule=self._system_import(name,*args,**kwargs)

amp 39 code 中运 nltk python pycharm

python - 生产环境中的 NLTK？

我在pythonnltk中开发了一些用于聚类、数据抽象等的算法。现在，问题是，在向VC展示之前，我要把它做大。NLTK有它自己的优势，比如快速开发等。但是当我一开始选择时，这对我来说很有意义。现在我已经足够成熟了，并且发现了它的一些局限性，比如缺乏可扩展性。对Mahout做了一些研究，但那也是为了集群/分类和搭配。OpenNLP是一个选项，但我不确定我可以使用它多久。有什么适合大规模nlp的吗？请注意-这个问题与我之前的问题无关-HowcanIimprovetheperformanceofNLTK?alternatives?.我已经读过NLTKonaproductionwebappli

python NLTK li 的 section opennlp

python - NLTK/pyNLTK 可以工作 "per language"(即非英语)，如何工作？

我如何告诉NLTK以特定语言处理文本？偶尔我会编写一个专门的NLP例程来在非英语(但仍然是印欧语)文本域上进行POS标记、分词等。这个问题似乎只针对不同的语料库，而不是代码/设置的变化:POStagginginGerman或者，是否有专门用于python的希伯来语/西类牙语/波兰语NLP模块？最佳答案我不确定您所说的代码/设置更改是什么。NLTK主要依赖于机器学习，“设置”通常是从训练数据中提取的。当谈到POS标记时，结果和标记将取决于您使用/训练的标记器。如果您自己训练，您当然需要一些西类牙语/波兰语训练数据。这些可能很难找到

amp language section noreferrer 波兰 python nlp nltk

23 24 252627 28 29