关闭。这个问题需要更多focused.它目前不接受答案。想要改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭3年前。Improvethisquestion我有一些法语文本需要以某种方式处理。为此,我需要:首先,将文本标记为单词然后对这些词进行词形还原以避免多次处理同一个词根据我所知,NLTK中的wordnetlemmatizer仅适用于英语。当我给它“voudrais”等时,我想要一些可以返回“vouloir”的东西。由于撇号,我也无法正确标记。任何指针将不胜感激。:) 最佳答案 我找到的最好的解决方
关闭。这个问题需要更多focused.它目前不接受答案。想要改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭3年前。Improvethisquestion我有一些法语文本需要以某种方式处理。为此,我需要:首先,将文本标记为单词然后对这些词进行词形还原以避免多次处理同一个词根据我所知,NLTK中的wordnetlemmatizer仅适用于英语。当我给它“voudrais”等时,我想要一些可以返回“vouloir”的东西。由于撇号,我也无法正确标记。任何指针将不胜感激。:) 最佳答案 我找到的最好的解决方
我将NLTKWordNetLemmatizer用于词性标记项目,首先将训练语料库中的每个单词修改为其词干(就地修改),然后仅在新语料库上进行训练。但是,我发现lemmatizer没有像我预期的那样运行。例如,单词loves被词形还原为love这是正确的,但单词loving仍然是loving即使在词形还原之后。这里的loving就像句子“我爱它”一样。love不是变形词loving的词干吗?类似地,许多其他“ing”形式在词形还原后保持不变。这是正确的行为吗?还有哪些其他准确的词形还原器?(不需要在NLTK中)在决定词干时是否有形态分析器或词形还原器也考虑到词的词性标签?例如,如果kil