我正在尝试从非常小的文本block(如sms)中提取名称和组织名称中的专有名词,nltk提供的基本解析器FindingProperNounsusingNLTKWordNet能够得到名词,但问题是当我们得到专有名词时不是以大写字母开头,对于像这样的文本,像sumit这样的名字不会被识别为专有名词>>>sentence="ispokewithsumitandrajeshandSamitaboutthegridlocksituationlastnight@around8pmlastnite">>>tagged_sent=pos_tag(sentence.split())>>>printtag
我目前正在使用NLTK进行语言处理,但是我遇到了句子分词的问题。问题来了:假设我有一句话:“图2显示了一张美国map。”当我使用punkttokenizer时,我的代码如下所示:fromnltk.tokenize.punktimportPunktSentenceTokenizer,PunktParameterspunkt_param=PunktParameters()abbreviation=['U.S.A','fig']punkt_param.abbrev_types=set(abbreviation)tokenizer=PunktSentenceTokenizer(punkt_pa
Python-NLTK可以识别输入字符串并不仅根据空格而且还根据内容解析它吗?比如说,“计算机系统”在这种情况下变成了一个短语。谁能提供一个示例代码?输入字符串:《用户对计算机系统响应时间意见的调查》预期输出:["A","survey","of","user","opinion","of","computersystem","response","time"] 最佳答案 您正在寻找的技术被称为来自语言学和计算的多个子领域或子子领域的多个名称。关键词提取来自InformationRetrieval,主要用于改进sear的索引/查询阅读
我想导入wordnet字典,但是当我导入字典形式wordnet时,我看到这个错误:forlinopen(WNSEARCHDIR+'/lexnames').readlines():IOError:[Errno2]Nosuchfileordirectory:'C:\\ProgramFiles\\WordNet\\2.0\\dict/lexnames'我在这个目录下安装了wordnet2.1但我无法导入请帮我解决这个问题importnltkfromnltkimport*fromnltk.corpusimportwordnetfromwordnetimportDictionaryprint'-
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭8年前。Improvethisquestion我们需要一个内容分类模块。贝叶斯分类器似乎就是我要找的。我们应该选择Orange还是NLTK?
我使用带停用词的NLTK来检测文档的语言,使用AlejandroNolla在http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and-nltk/描述的方法,而且效果还不错。我还在使用一些未包含在NLTK停用词包中的其他语言,例如捷克语和罗马尼亚语,它们与其他语言一样会出现错误匹配。这些是停用词中的语言:['丹麦语','荷兰语','英语','芬兰语','法语','德语','匈牙利语','意大利语','挪威语','葡萄牙语','俄语','西类牙语','瑞典语','土耳其语']如何扩展N
importnltkfromnltk.parseimportViterbiParserdefpcfg_chartparser(grammarfile):f=open(grammarfile)grammar=f.read()f.close()returnnltk.PCFG.fromstring(grammar)grammarp=pcfg_chartparser("wsjp.cfg")VP=ViterbiParser(grammarp)printVPforwinsent:fortreeinVP.parse(nltk.word_tokenize(w)):printtree当我运行上面的代码时
一般来说,名词短语的中心词是NP最右边的名词,如下所示树是父NP的中心词。所以ROOT|S___|________________________NP|___|_____________||PPVP|____|________|___NP|NP|PRT___|_______||||DTJJNNNNINNNPVBDRP||||||||TheoldoaktreefromIndiafelldownOut[40]:Tree('S',[Tree('NP',[Tree('NP',[Tree('DT',['The']),Tree('JJ',['old']),Tree('NN',['oak']),Tr
我在我的项目中使用NLTK和wordnet。我在我的PC上使用pip手动安装:pip3installnltk--user在终端中,然后nltk.download()在pythonshell中下载wordnet。我想用setup.py文件自动化这些,但我不知道安装wordnet的好方法。目前,我在调用setup之后有这段代码("nltk"在install_requires列表中调用setup):importsysif'install'insys.argv:importnltknltk.download("wordnet")有更好的方法吗? 最佳答案
最近我接触了NLP,我尝试使用NLTK和TextBlob用于分析文本。我想开发一个分析旅行者评论的应用程序,因此我必须管理大量用不同语言编写的文本。我需要做两个主要操作:词性标注和词形还原。我已经看到,在NLTK中,可以像这样为句子标记化选择正确的语言:tokenizer=nltk.data.load('tokenizers/punkt/PY3/italian.pickle')我还没有找到正确的方法来为不同语言的POS标记和Lemmatizer设置语言。如何为意大利语、法语、西类牙语或德语等非英语文本设置正确的语料库/词典?我还看到可以导入“TreeBank”或“WordNet”模块,