JSoup_草庐IT

java - Jsoup Java HTML 解析器 : Executing Javascript events

我可以在Jsoup中填写表单、执行事件和Javascript函数吗？如果是，我怎么办？或者我应该去另一个解析器。最佳答案 JSoup只是一个HTML解析器/“整理器”——不是浏览器模拟器。要与HTML页面交互(执行javascript、填写表单等)，您应该使用类似HtmlUnit的工具。或Selenium. 关于java-JsoupJavaHTML解析器:ExecutingJavascriptevents，我们在StackOverflow上找到一个类似的问题：

html - 使用 jsoup 标记后获取某些文本

您好，我正在尝试使用jsoup从HTML文件中获取某些文本。我已经知道如何获取text2和text3。但是我如何在没有其他人的情况下获得我想要的文本？textIwanttext2text3我试过Elementslines=doc.select(".snt");lines.First().nextSibling().toString();但我一无所获。我也试过:Elementslines=doc.select(".snt");lines.text();//thisreturnalltextstogether你能帮帮我吗？感谢您的回答。最佳答案

jsoup html section code text tags

html - 使用 jsoup 标记后获取某些文本

您好，我正在尝试使用jsoup从HTML文件中获取某些文本。我已经知道如何获取text2和text3。但是我如何在没有其他人的情况下获得我想要的文本？textIwanttext2text3我试过Elementslines=doc.select(".snt");lines.First().nextSibling().toString();但我一无所获。我也试过:Elementslines=doc.select(".snt");lines.text();//thisreturnalltextstogether你能帮帮我吗？感谢您的回答。最佳答案

jsoup html section code text tags

java - jsoup : How to search for date text from a webpage

这就是我想要做的:(我想用jsoup)只传递一个url进行解析搜索网页内容中提到的日期从每一页内容中提取至少一个日期将该日期转换为标准格式所以，第1点我现在拥有的:Stringurl="http://stackoverflow.com/questions/28149254/using-a-regex-in-jsoup";Documentdocument=Jsoup.connect(url).get();现在我想了解“文档”是什么格式，它是否已经从html或任何类型的网页类型或什么解析？然后第2点我现在拥有的是:Patternp=Pattern.compile("\\d{4}-[01]\

webpage search Pattern elements 34 java html parsing jsoup

java - jsoup : How to search for date text from a webpage

这就是我想要做的:(我想用jsoup)只传递一个url进行解析搜索网页内容中提到的日期从每一页内容中提取至少一个日期将该日期转换为标准格式所以，第1点我现在拥有的:Stringurl="http://stackoverflow.com/questions/28149254/using-a-regex-in-jsoup";Documentdocument=Jsoup.connect(url).get();现在我想了解“文档”是什么格式，它是否已经从html或任何类型的网页类型或什么解析？然后第2点我现在拥有的是:Patternp=Pattern.compile("\\d{4}-[01]\

webpage search Pattern elements 34 java html parsing jsoup

html - Jsoup 转义特殊字符

我正在使用Jsoup从HTML页面中删除所有图像。我通过HTTP响应接收页面-其中还包含内容字符集。问题是Jsoup对一些特殊字符进行了转义。例如，对于输入:isn’t运行后Stringcheck="isn’t";Documentdoc=Jsoup.parse(check);System.out.println(doc.outerHtml());我得到:isn’t除了删除图片之外，我想避免以任何其他方式更改html。通过使用命令:doc.outputSettings().prettyPrint(false).charset("ASCII").escapeMode

Jsoup html gt lt code character-encoding escaping

html - Jsoup 转义特殊字符

我正在使用Jsoup从HTML页面中删除所有图像。我通过HTTP响应接收页面-其中还包含内容字符集。问题是Jsoup对一些特殊字符进行了转义。例如，对于输入:isn’t运行后Stringcheck="isn’t";Documentdoc=Jsoup.parse(check);System.out.println(doc.outerHtml());我得到:isn’t除了删除图片之外，我想避免以任何其他方式更改html。通过使用命令:doc.outputSettings().prettyPrint(false).charset("ASCII").escapeMode

Jsoup html gt lt code character-encoding escaping

java - 使用 jsoup 将相对链接转换为绝对链接

我正在使用jsoup清理一个html页面，问题是当我将html保存到本地时，图像不显示，因为它们都是相对链接。下面是一些示例代码:importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document;publicclassso2{publicstaticvoidmain(String[]args){Stringhtml="TheTitle"+"";Documentdoc=Jsoup.parse(html,"https://whatever.com");//baseUriseemstobeignored??System.out.println(doc)

绝对 jsoup 34 abstract gt java html html-parsing

java - 使用 jsoup 将相对链接转换为绝对链接

我正在使用jsoup清理一个html页面，问题是当我将html保存到本地时，图像不显示，因为它们都是相对链接。下面是一些示例代码:importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document;publicclassso2{publicstaticvoidmain(String[]args){Stringhtml="TheTitle"+"";Documentdoc=Jsoup.parse(html,"https://whatever.com");//baseUriseemstobeignored??System.out.println(doc)

绝对 jsoup 34 abstract gt java html html-parsing

java - 让 Jsoup 支持 JavaScript 动态生成的 html

现在我正在研究网络爬虫。这个应该解析一些特定的站点并给我一个xml文件的输出。到目前为止，这没有问题。Crawler可以工作，您可以通过cfg文件快速自定义它。我使用Jsoup来解析HTML内容。我刚刚添加了几个站点，发现通过JavaScript创建的HTML内容存在一个大问题。有没有办法让Jsoup支持Javascript？或者至少获得我可以在浏览器中看到的完整HTML内容。我已经尝试过HtmlUnit，但这个效果不佳。它没有给我在浏览器中获得的内容。此致奥戈弗最佳答案 Jsoup不支持javascript，也不模拟浏览器。如果

JavaScript Jsoup section HtmlUnit java html