boilerpipe_草庐IT

我正在尝试使用boilerpipejava库，从一组网站中提取新闻文章。它适用于英文文本，但对于带有特殊字符的文本，例如带有重音符号的单词(história)，这些特殊字符无法正确提取。我认为这是一个编码问题。在boilerpipe常见问题解答中，它说“如果您提取非英语文本，您可能需要更改一些参数”，然后引用paper.我在这篇论文中没有找到解决方案。我的问题是，在使用boilerpipe时是否有任何参数可以指定编码？有什么办法可以绕过并正确获取文本吗？我如何使用图书馆:(第一次尝试基于URL):URLurl=newURL(link);Stringarticle=ArticleExtr