草庐IT

java - 如何在 Java 中将 HTML 解析器与 Apache Tika 一起使用以提取所有 HTML 标记?

我下载了tika-core和tika-parser库,但找不到将HTML文档解析为字符串的示例代码。我必须摆脱网页源的所有html标签。我能做些什么?我如何使用ApacheTika编写代码? 最佳答案 您想要html文件的纯文本版本吗?如果是这样,您所需要的只是:InputStreaminput=newFileInputStream("myfile.html");ContentHandlerhandler=newBodyContentHandler();Metadatametadata=newMetadata();newHtmlPa