nltk.pos_tag()是如何工作的?它是否涉及任何语料库的使用?我找到了一个源代码(nltk.tag-NLTK3.0文档),上面写着_POS_TAGGER='taggers/maxent_treebank_pos_tagger/english.pickle'.加载_POS_TAGGER给出一个对象:nltk.tag.sequential.ClassifierBasedPOSTagger,似乎没有来自语料库的训练。当我在名词前连续使用几个形容词时,标记是不正确的(例如thequickbrownfox)。我想知道我是否可以通过使用更好的标记方法或以某种方式使用更好的语料库进行训练来改
我正在尝试使用NLTK和Python学习自然语言处理(英语)。有没有办法在POS标记期间或之后获得动词的不定式形式。例如:是(VBZ)=>是提供(VBN)=>提供using(VBG)=>使用 最佳答案 关闭,您需要在开头添加“to”:>>>fromnltk.stem.wordnetimportWordNetLemmatizer>>>lemmatizer=WordNetLemmatizer()>>>lemmatizer.lemmatize('is','v')'be'>>>lemmatizer.lemmatize('provided',
我想知道将“haaaaapppppyyy”之类的内容转换为“haappyy”的最佳方法是什么。基本上,在解析俚语时,人们有时会重复字符以增加强调。我想知道最好的方法是什么?使用set()不起作用,因为字母的顺序显然很重要。有什么想法吗?我正在使用Python+nltk。 最佳答案 可以使用正则表达式来完成:>>>importre>>>re.sub(r'(.)\1+',r'\1\1',"haaaaapppppyyy")'haappyy'(.)\1+替换任何字符(.)后跟一个或多个相同的字符(因为backref\1必须相同)乘以字符的两
我正在尝试根据Chapter7oftheNLTKbook了解如何使用NLTK的级联分block器.不幸的是,我在执行重要的分block措施时遇到了一些问题。让我们从这个短语开始:"adventuremoviesbetween2000and2015featuringperformancesbydanielcraig"当我使用以下语法时,我能够找到所有相关的NP:grammar="NP:{?*+}"但是,我不确定如何使用NLTK构建嵌套结构。该书给出了以下格式,但显然缺少一些东西(例如,一个人实际上如何指定多个规则?):grammar=r"""NP:{+}#Chunksequencesof
我使用的是VisualStudio2010。我有一个IronPython控制台项目和一个C#控制台项目。这个IronPython脚本在我单独运行时运行良好:importnltkdefSimple():baconIpsumFile=open('baconipsum.txt','r')baconIpsumCorpus=baconIpsumFile.read()tokens=nltk.word_tokenize(baconIpsumCorpus)text=nltk.Text(tokens)printtext这是C#控制台程序,它不能正常工作:usingIronPython.Hosting;n
刚开始学python。我想在NLTK中编写一个程序,将文本分解为一元字母、二元字母。例如,如果输入文本是..."Iamfeelingsadanddisappointedduetoerrors"...我的函数应该生成如下文本:Iam-->amfeeling-->feelingsad-->sadand-->anddisappointed-->disppointeddue-->dueto-->toerrors我已经编写了将文本输入程序的代码。这是我正在尝试的功能:defgen_bigrams(text):token=nltk.word_tokenize(review)bigrams=ngra
关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭8年前。Improvethisquestion是否有用于将印地语音译为英语的python库?例如“खाया”应转换为“khaya”
如何使用nltkPython模块和WordNet查找词域?假设我有像(交易、汇票、支票、存折)这样的词,所有这些词的域都是“BANK”。我们如何在Python中使用nltk和WordNet获得它?我正在尝试通过上位词和下位词的关系:例如:fromnltk.corpusimportwordnetaswnsports=wn.synset('sport.n.01')sports.hyponyms()[Synset('judo.n.01'),Synset('athletic_game.n.01'),Synset('spectator_sport.n.01'),Synset('contact_s
我正在尝试解决一个难题,但迷路了。这是我应该做的:INPUT:fileOUTPUT:dictionaryReturnadictionarywhosekeysareallthewordsinthefile(brokenbywhitespace).Thevalueforeachwordisadictionarycontainingeachwordthatcanfollowthekeyandacountforthenumberoftimesitfollowsit.Youshouldlowercaseeverything.Usestripandstring.punctuationtostrip
我正在尝试从德语文档中提取单词,当我使用nltk教程中描述的以下方法时,我无法获得具有语言特定特殊字符的单词。ptcr=nltk.corpus.PlaintextCorpusReader(Corpus,'.*');words=nltk.Text(ptcr.words(DocumentName))如何获取文档中的单词列表?德语短语VeränderungenübereinenWalzer的nltk.tokenize.WordPunctTokenizer()示例如下:In[231]:nltk.tokenize.WordPunctTokenizer().tokenize(u"Veränderu