我想从一个包含200个单词的列表中创建一些排列组合——这显然会产生一个问题,因为这会导致可能的排列组合数量多得离谱(一个短语中最多5个单词)。为了有效地限制这个数字,我有一个双管齐下的攻击:将单词通过POS过滤器,以便仅创建语言上合理的短语,并且过滤那些实际ngram的排列——即具有高PMI/可能性得分。这个概念的第二部分让我感到疑惑——我知道NLTK提供了查找ngram的能力,但我看到的每个示例都分析了一个语料库,这是有道理的,因为需要freqdist。但是,是否可以找到单词排列的PMI?是否可以根据自定义语料库中的常见搭配找到我的单词排列的PMI分数?可以手动完成吗?例如,虽然排列
这是一个follow-upofmyquestion.我正在使用nltk来解析人员、组织及其关系。使用thisexample,我能够创建大量的人和组织;但是,我在nltk.sem.extract_rel命令中遇到错误:AttributeError:'Tree'objecthasnoattribute'text'完整代码如下:importnltkimportre#billgatesbiofromhttp://www.reuters.com/finance/stocks/officerProfile?symbol=MSFT.O&officerId=28066withopen('billgat
NLTK词语料库中没有短语“okay”、“okay”、“Okay”?>fromnltk.corpusimportwords>words.words().__contains__("check")>True>words.words().__contains__("okay")>False>len(words.words())>236736有什么想法吗? 最佳答案 长话短说fromnltk.corpusimportwordsfromnltk.corpusimportwordnetmanywords=words.words()+wordn
我正在使用python2.7、nltk3.2.1和python-crfsuite0.8.4。我正在关注此页面:http://www.nltk.org/api/nltk.tag.html?highlight=stanford#nltk.tag.stanford.NERTagger对于nltk.tag.crf模块。首先我只是运行这个fromnltk.tagimportCRFTaggerct=CRFTagger()train_data=[[('dfd','dfd')]]ct.train(train_data,"abc")我也试过了f=open("abc","wb")ct.train(trai
我写了下面的正则表达式来标记某些短语模式pattern="""P2:{+?*+**}P1:{?+?*?*+}P3:{}P4:{}"""这个模式会正确地标记一个短语,例如:a='Thepizzawasgoodbutpastawasbad'并用2个短语给出所需的输出:披萨不错意大利面不好吃但是,如果我的句子是这样的:a='Thepizzawasawesomeandbrilliant'只匹配短语:'pizzawasawesome'而不是所需的:'pizzawasawesomeandbrilliant'我如何将正则表达式模式也纳入我的第二个示例? 最佳答案
我正在使用他们的默认POS标记和默认标记化..这似乎足够了。我也想要他们的默认分block器。我正在阅读NLTK工具包书籍,但他们似乎没有默认分block器? 最佳答案 您可以使用nltk.ne_chunk()方法开箱即用命名实体分block。它需要一个POS标记的元组列表:nltk.ne_chunk([('Barack','NNP'),('Obama','NNP'),('lives','NNS'),('in','IN'),('华盛顿','NNP')])结果:Tree('S',[Tree('PERSON',[('Barack','N
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭6年前。Improvethisquestion我在以前的Java项目中使用了LingPipe、斯坦福的NER、RiTa和各种句子相似度库,这些项目专注于大量英文文本的文本(预处理)处理(索引、xml标记、主题检测等)(大约10,000个文档加起来超过1gb的文本)。也许我是一个糟糕的Java程序员,但当我切换到不同的语料库时,我发现自己输入了很多代码并使用了很多库。总的来说,我觉得可能有更好的工具来完成这项工作。我想我的问题是,切换到
我在Windows7的pycharmIDE中使用python3.5.2,但在导入nltk包时遇到问题。importnltk出现以下错误:Traceback(mostrecentcalllast):File"",line1,inFile"C:\ProgramFiles(x86)\JetBrains\PyCharmCommunityEdition2016.2.3\helpers\pydev\_pydev_bundle\pydev_import_hook.py",line21,indo_importmodule=self._system_import(name,*args,**kwargs)
我在pythonnltk中开发了一些用于聚类、数据抽象等的算法。现在,问题是,在向VC展示之前,我要把它做大。NLTK有它自己的优势,比如快速开发等。但是当我一开始选择时,这对我来说很有意义。现在我已经足够成熟了,并且发现了它的一些局限性,比如缺乏可扩展性。对Mahout做了一些研究,但那也是为了集群/分类和搭配。OpenNLP是一个选项,但我不确定我可以使用它多久。有什么适合大规模nlp的吗?请注意-这个问题与我之前的问题无关-HowcanIimprovetheperformanceofNLTK?alternatives?.我已经读过NLTKonaproductionwebappli
我如何告诉NLTK以特定语言处理文本?偶尔我会编写一个专门的NLP例程来在非英语(但仍然是印欧语)文本域上进行POS标记、分词等。这个问题似乎只针对不同的语料库,而不是代码/设置的变化:POStagginginGerman或者,是否有专门用于python的希伯来语/西类牙语/波兰语NLP模块? 最佳答案 我不确定您所说的代码/设置更改是什么。NLTK主要依赖于机器学习,“设置”通常是从训练数据中提取的。当谈到POS标记时,结果和标记将取决于您使用/训练的标记器。如果您自己训练,您当然需要一些西类牙语/波兰语训练数据。这些可能很难找到