草庐IT

荷兰语

全部标签

python - NLTK 荷兰语命名实体识别

我正在尝试从荷兰语文本中提取命名实体。我用了nltk-trainer在conll2002荷兰语语料库上训练标注器和词block划分器。但是,chunker的parse方法没有检测到任何命名实体。这是我的代码:str='Christianeheefteenlam.'tagger=nltk.data.load('taggers/dutch.pickle')chunker=nltk.data.load('chunkers/dutch.pickle')str_tags=tagger.tag(nltk.word_tokenize(str))printstr_tagsstr_chunks=chun

linux - 波兰语文本出现 msgfmt "invalid multibyte sequence"错误

使用CompleteC++i18ngettext()“helloworld”example我将区域设置从“es_MX”更改为“pl_PL”,并将文本从“hello,world!”更改为“es_MX”。到“无效输入。输入至少20个字符长的字符串。”。波兰语翻译包含多个字符,这些字符会导致msgfmt、“łąźó”出现“无效的多字节序列”错误。翻译的文本是从网页复制的。我认为utf8是问题所在。如果是这样,应该用什么代替?cat>plt.cxx#include#includeintmain(){setlocale(LC_ALL,"");bindtextdomain("plt",".");t