Tika_草庐IT

我下载了tika-core和tika-parser库，但找不到将HTML文档解析为字符串的示例代码。我必须摆脱网页源的所有html标签。我能做些什么？我如何使用ApacheTika编写代码？最佳答案您想要html文件的纯文本版本吗？如果是这样，您所需要的只是:InputStreaminput=newFileInputStream("myfile.html");ContentHandlerhandler=newBodyContentHandler();Metadatametadata=newMetadata();newHtmlPa