NLTK_草庐IT

python - nltk.pos_tag() 是如何工作的？

nltk.pos_tag()是如何工作的？它是否涉及任何语料库的使用？我找到了一个源代码(nltk.tag-NLTK3.0文档)，上面写着_POS_TAGGER='taggers/maxent_treebank_pos_tagger/english.pickle'.加载_POS_TAGGER给出一个对象:nltk.tag.sequential.ClassifierBasedPOSTagger，似乎没有来自语料库的训练。当我在名词前连续使用几个形容词时，标记是不正确的(例如thequickbrownfox)。我想知道我是否可以通过使用更好的标记方法或以某种方式使用更好的语料库进行训练来改

python - 如何使用 NLTK(pos 标记)获取动词的不定式形式

我正在尝试使用NLTK和Python学习自然语言处理(英语)。有没有办法在POS标记期间或之后获得动词的不定式形式。例如:是(VBZ)=>是提供(VBN)=>提供using(VBG)=>使用最佳答案关闭，您需要在开头添加“to”:>>>fromnltk.stem.wordnetimportWordNetLemmatizer>>>lemmatizer=WordNetLemmatizer()>>>lemmatizer.lemmatize('is','v')'be'>>>lemmatizer.lemmatize('provided',

python NLTK section 39 gt part-of-speech

python - 从单词中删除重复字符

我想知道将“haaaaapppppyyy”之类的内容转换为“haappyy”的最佳方法是什么。基本上，在解析俚语时，人们有时会重复字符以增加强调。我想知道最好的方法是什么？使用set()不起作用，因为字母的顺序显然很重要。有什么想法吗？我正在使用Python+nltk。最佳答案可以使用正则表达式来完成:>>>importre>>>re.sub(r'(.)\1+',r'\1\1',"haaaaapppppyyy")'haappyy'(.)\1+替换任何字符(.)后跟一个或多个相同的字符(因为backref\1必须相同)乘以字符的两

单词 python section code haaaaapppppyyy nlp nltk

python - 使用 NLTK 通过分块进行关系提取

我正在尝试根据Chapter7oftheNLTKbook了解如何使用NLTK的级联分block器.不幸的是，我在执行重要的分block措施时遇到了一些问题。让我们从这个短语开始:"adventuremoviesbetween2000and2015featuringperformancesbydanielcraig"当我使用以下语法时，我能够找到所有相关的NP:grammar="NP:{?*+}"但是，我不确定如何使用NLTK构建嵌套结构。该书给出了以下格式，但显然缺少一些东西(例如，一个人实际上如何指定多个规则？):grammar=r"""NP:{+}#Chunksequencesof

python NLTK 34 gt lt named-entity-recognition chunking

c# - 通过 IronPython 在 C# 中使用 NLTK

我使用的是VisualStudio2010。我有一个IronPython控制台项目和一个C#控制台项目。这个IronPython脚本在我单独运行时运行良好:importnltkdefSimple():baconIpsumFile=open('baconipsum.txt','r')baconIpsumCorpus=baconIpsumFile.read()tokens=nltk.word_tokenize(baconIpsumCorpus)text=nltk.Text(tokens)printtext这是C#控制台程序，它不能正常工作:usingIronPython.Hosting;n

c#section IronPython python nltk

python - 'generator' 类型的对象没有 len()

刚开始学python。我想在NLTK中编写一个程序，将文本分解为一元字母、二元字母。例如，如果输入文本是..."Iamfeelingsadanddisappointedduetoerrors"...我的函数应该生成如下文本:Iam-->amfeeling-->feelingsad-->sadand-->anddisappointed-->disppointeddue-->dueto-->toerrors我已经编写了将文本输入程序的代码。这是我正在尝试的功能:defgen_bigrams(text):token=nltk.word_tokenize(review)bigrams=ngra

amp generator code bigrams section python nltk

python - 印地语到英语音译

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭8年前。Improvethisquestion是否有用于将印地语音译为英语的python库？例如“खाया”应转换为“khaya”

印地语印地 section class notice python nlp nltk transliteration

python - 如何在 Python 中使用 WordNet 获取词域？

如何使用nltkPython模块和WordNet查找词域？假设我有像(交易、汇票、支票、存折)这样的词，所有这些词的域都是“BANK”。我们如何在Python中使用nltk和WordNet获得它？我正在尝试通过上位词和下位词的关系:例如:fromnltk.corpusimportwordnetaswnsports=wn.synset('sport.n.01')sports.hyponyms()[Synset('judo.n.01'),Synset('athletic_game.n.01'),Synset('spectator_sport.n.01'),Synset('contact_s

何在 WordNet Synset 39 code python nlp nltk

python - 为文件中的每个单词创建字典并计算其后单词的频率

我正在尝试解决一个难题，但迷路了。这是我应该做的:INPUT:fileOUTPUT:dictionaryReturnadictionarywhosekeysareallthewordsinthefile(brokenbywhitespace).Thevalueforeachwordisadictionarycontainingeachwordthatcanfollowthekeyandacountforthenumberoftimesitfollowsit.Youshouldlowercaseeverything.Usestripandstring.punctuationtostrip

单词其后 code section 39 python dictionary nltk counter n-gram

python - 使用 nltk 从德语文本中提取单词

我正在尝试从德语文档中提取单词，当我使用nltk教程中描述的以下方法时，我无法获得具有语言特定特殊字符的单词。ptcr=nltk.corpus.PlaintextCorpusReader(Corpus,'.*');words=nltk.Text(ptcr.words(DocumentName))如何获取文档中的单词列表？德语短语VeränderungenübereinenWalzer的nltk.tokenize.WordPunctTokenizer()示例如下:In[231]:nltk.tokenize.WordPunctTokenizer().tokenize(u"Veränderu

德语单词 code nltk python nlp text-mining