草庐IT

boilerpipe

全部标签

java - 使用boilerpipe提取非英文文章

我正在尝试使用boilerpipejava库,从一组网站中提取新闻文章。它适用于英文文本,但对于带有特殊字符的文本,例如带有重音符号的单词(história),这些特殊字符无法正确提取。我认为这是一个编码问题。在boilerpipe常见问题解答中,它说“如果您提取非英语文本,您可能需要更改一些参数”,然后引用paper.我在这篇论文中没有找到解决方案。我的问题是,在使用boilerpipe时是否有任何参数可以指定编码?有什么办法可以绕过并正确获取文本吗?我如何使用图书馆:(第一次尝试基于URL):URLurl=newURL(link);Stringarticle=ArticleExtr

html - golang 中是否有 boilerpipe?

有没有boilerpipe比如用go语言实现的项目?我尝试在google中搜索但没有找到任何内容 最佳答案 您可能想看看Goose:https://github.com/advancedlogic/GoOse 关于html-golang中是否有boilerpipe?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/24651627/