nltk

python - 解析文本以获得专有名词(名称和组织)——python nltk

我正在尝试从非常小的文本block(如sms)中提取名称和组织名称中的专有名词，nltk提供的基本解析器FindingProperNounsusingNLTKWordNet能够得到名词，但问题是当我们得到专有名词时不是以大写字母开头，对于像这样的文本，像sumit这样的名字不会被识别为专有名词>>>sentence="ispokewithsumitandrajeshandSamitaboutthegridlocksituationlastnight@around8pmlastnite">>>tagged_sent=pos_tag(sentence.split())>>>printtag

python 专有名词 39 专有 section nltk

python - 如何避免 NLTK 的句子分词器在缩写时 split ？

我目前正在使用NLTK进行语言处理，但是我遇到了句子分词的问题。问题来了:假设我有一句话:“图2显示了一张美国map。”当我使用punkttokenizer时，我的代码如下所示:fromnltk.tokenize.punktimportPunktSentenceTokenizer,PunktParameterspunkt_param=PunktParameters()abbreviation=['U.S.A','fig']punkt_param.abbrev_types=set(abbreviation)tokenizer=PunktSentenceTokenizer(punkt_pa

句子 python U.S.A.39 code nlp nltk tokenize

python - 如何使用 Python-NLTK 根据词汇内容(短语)解析句子

Python-NLTK可以识别输入字符串并不仅根据空格而且还根据内容解析它吗？比如说，“计算机系统”在这种情况下变成了一个短语。谁能提供一个示例代码？输入字符串:《用户对计算机系统响应时间意见的调查》预期输出:["A","survey","of","user","opinion","of","computersystem","response","time"] 最佳答案您正在寻找的技术被称为来自语言学和计算的多个子领域或子子领域的多个名称。关键词提取来自InformationRetrieval，主要用于改进sear的索引/查询阅读

短语句子 39 li strong python nltk lexical

python - 在 NLTK 中导入 WordNet

我想导入wordnet字典，但是当我导入字典形式wordnet时，我看到这个错误:forlinopen(WNSEARCHDIR+'/lexnames').readlines():IOError:[Errno2]Nosuchfileordirectory:'C:\\ProgramFiles\\WordNet\\2.0\\dict/lexnames'我在这个目录下安装了wordnet2.1但我无法导入请帮我解决这个问题importnltkfromnltkimport*fromnltk.corpusimportwordnetfromwordnetimportDictionaryprint'-

中导 WordNet code section python dictionary nltk stemming

python - Orange vs NLTK 在 Python 中进行内容分类

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭8年前。Improvethisquestion我们需要一个内容分类模块。贝叶斯分类器似乎就是我要找的。我们应该选择Orange还是NLTK？

中进行内 section class notice python machine-learning nltk naivebayes orange

python - 如何向 NLTK 中的停用词添加更多语言？

我使用带停用词的NLTK来检测文档的语言，使用AlejandroNolla在http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and-nltk/描述的方法，而且效果还不错。我还在使用一些未包含在NLTK停用词包中的其他语言，例如捷克语和罗马尼亚语，它们与其他语言一样会出现错误匹配。这些是停用词中的语言:['丹麦语','荷兰语','英语','芬兰语','法语','德语','匈牙利语','意大利语','挪威语','葡萄牙语','俄语','西类牙语','瑞典语','土耳其语']如何扩展N

用词 python section noreferrer nlp nltk stop-words

python - NLTK ViterbiParser 无法解析不在 PCFG 规则中的单词

importnltkfromnltk.parseimportViterbiParserdefpcfg_chartparser(grammarfile):f=open(grammarfile)grammar=f.read()f.close()returnnltk.PCFG.fromstring(grammar)grammarp=pcfg_chartparser("wsjp.cfg")VP=ViterbiParser(grammarp)printVPforwinsent:fortreeinVP.parse(nltk.word_tokenize(w)):printtree当我运行上面的代码时

ViterbiParser 单词 39 ProbabilisticTree gt python nlp nltk context-free-grammar viterbi

python - NLTK和stanford中名词短语的中心查找根据NP的中心查找规则进行解析

一般来说，名词短语的中心词是NP最右边的名词，如下所示树是父NP的中心词。所以ROOT|S___|________________________NP|___|_____________||PPVP|____|________|___NP|NP|PRT___|_______||||DTJJNNNNINNNPVBDRP||||||||TheoldoaktreefromIndiafelldownOut[40]:Tree('S',[Tree('NP',[Tree('NP',[Tree('DT',['The']),Tree('JJ',['old']),Tree('NN',['oak']),Tr

短语 stanford 39 Tree code python algorithm nltk stanford-nlp

python - 在 setup.py 脚本中安装 nltk 数据依赖

我在我的项目中使用NLTK和wordnet。我在我的PC上使用pip手动安装:pip3installnltk--user在终端中，然后nltk.download()在pythonshell中下载wordnet。我想用setup.py文件自动化这些，但我不知道安装wordnet的好方法。目前，我在调用setup之后有这段代码("nltk"在install_requires列表中调用setup):importsysif'install'insys.argv:importnltknltk.download("wordnet")有更好的方法吗？最佳答案

中安 python code install nltk setup.py wordnet python-packaging

python - 用于 POS 标记和 Lemmatizer 的多语言 NLTK

最近我接触了NLP，我尝试使用NLTK和TextBlob用于分析文本。我想开发一个分析旅行者评论的应用程序，因此我必须管理大量用不同语言编写的文本。我需要做两个主要操作:词性标注和词形还原。我已经看到，在NLTK中，可以像这样为句子标记化选择正确的语言:tokenizer=nltk.data.load('tokenizers/punkt/PY3/italian.pickle')我还没有找到正确的方法来为不同语言的POS标记和Lemmatizer设置语言。如何为意大利语、法语、西类牙语或德语等非英语文本设置正确的语料库/词典？我还看到可以导入“TreeBank”或“WordNet”模块，

多语 Lemmatizer RDRPOSTagger code section python nlp nltk pos-tagger lemmatization

24 25 262728 29 30