草庐IT

java - 让 Jsoup 支持 JavaScript 动态生成的 html

现在我正在研究网络爬虫。这个应该解析一些特定的站点并给我一个xml文件的输出。到目前为止,这没有问题。Crawler可以工作,您可以通过cfg文件快速自定义它。我使用Jsoup来解析HTML内容。我刚刚添加了几个站点,发现通过JavaScript创建的HTML内容存在一个大问题。有没有办法让Jsoup支持Javascript?或者至少获得我可以在浏览器中看到的完整HTML内容。我已经尝试过HtmlUnit,但这个效果不佳。它没有给我在浏览器中获得的内容。此致奥戈弗 最佳答案 Jsoup不支持javascript,也不模拟浏览器。如果

java - 如何使用jsoup取消注释html标签

我想知道是否可以使用jsoup取消注释html标签以进行实例更改:foobar-->到foobar 最佳答案 是的,这是可能的。这是解决此问题的一种方法:查找所有评论节点为每个评论提取数据属性在当前评论节点之后插入一个带有数据的新节点删除评论节点看看这段代码:publicclassUncommentComments{publicstaticvoidmain(String...args){StringhtmlIn=""+"hellothere-->"+"notacomment"+"anothercomment-->"+"";Docum

java - 如何使用jsoup取消注释html标签

我想知道是否可以使用jsoup取消注释html标签以进行实例更改:foobar-->到foobar 最佳答案 是的,这是可能的。这是解决此问题的一种方法:查找所有评论节点为每个评论提取数据属性在当前评论节点之后插入一个带有数据的新节点删除评论节点看看这段代码:publicclassUncommentComments{publicstaticvoidmain(String...args){StringhtmlIn=""+"hellothere-->"+"notacomment"+"anothercomment-->"+"";Docum

java - 如何使用 Jsoup 添加新的 html 标签?

我在向我的文档添加新标签时遇到了一些问题。例如我有:Documentdoc=Jsoup.parse(htmlString);Elementtable=doc.select("table").first();现在如果我想添加一个将带有属性(href、type、rel)的标签添加到我的表格元素,然后将总数作为字符串返回,我该怎么做? 最佳答案 使用这样的东西:Jsoup.parse(newURL(""),0).getElementById("test").appendElement("h1").attr("id","header").t

java - 如何使用 Jsoup 添加新的 html 标签?

我在向我的文档添加新标签时遇到了一些问题。例如我有:Documentdoc=Jsoup.parse(htmlString);Elementtable=doc.select("table").first();现在如果我想添加一个将带有属性(href、type、rel)的标签添加到我的表格元素,然后将总数作为字符串返回,我该怎么做? 最佳答案 使用这样的东西:Jsoup.parse(newURL(""),0).getElementById("test").appendElement("h1").attr("id","header").t

java - 如何使用 jsoup 获取所有 div 元素?

我正在学习如何使用jsoup。我最初认为jsoup类似于jquery,但事实并非如此。我想将这个html正文提取到div的元素中。TitleParagraph1Paragraph2End我正在使用这段代码:Documentdoc=Jsoup.parse(htmlString);Elementsdivs=doc.select("div");但它会返回所有的div。我希望元素像这样返回:divs.get(0).toString();//"Title"divs.get(1).toString();//""divs.get(2).toString();//"Paragraph1Paragrap

java - 如何使用 jsoup 获取所有 div 元素?

我正在学习如何使用jsoup。我最初认为jsoup类似于jquery,但事实并非如此。我想将这个html正文提取到div的元素中。TitleParagraph1Paragraph2End我正在使用这段代码:Documentdoc=Jsoup.parse(htmlString);Elementsdivs=doc.select("div");但它会返回所有的div。我希望元素像这样返回:divs.get(0).toString();//"Title"divs.get(1).toString();//""divs.get(2).toString();//"Paragraph1Paragrap

Java如何解析html里面的内容并存到数据库

一、前言        最近接到一个任务,需要爬取五级行政区划的所有数据(大概71万条数据在),需要爬取的网站:行政区划-行政区划代码查询 发现这个网站不是用接口请求的,而且直接返回html代码,所以,去看了一下Java是如何解析html里面的内容二、准备工作        我选用的是使用jsoup进行html的读取和解析,需要加入如下依赖:org.jsoupjsoup1.8.3        jsoup 是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jquery的操作方法来取出和操作数据。它是基于MIT

Java如何解析html里面的内容并存到数据库

一、前言        最近接到一个任务,需要爬取五级行政区划的所有数据(大概71万条数据在),需要爬取的网站:行政区划-行政区划代码查询 发现这个网站不是用接口请求的,而且直接返回html代码,所以,去看了一下Java是如何解析html里面的内容二、准备工作        我选用的是使用jsoup进行html的读取和解析,需要加入如下依赖:org.jsoupjsoup1.8.3        jsoup 是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jquery的操作方法来取出和操作数据。它是基于MIT

java - 使用 Jsoup 选择没有类的 HTML 元素

考虑像这样的html文档...............我们如何选择所有的p元素,但不包括具有random_class_name类的p元素? 最佳答案 Elementsps=body.select("p:not(.random_class_name)");你可以使用伪选择器:not如果不知道类名,你仍然可以使用类似的表达式:Elementsps=body.select("p:not([class])");在第二个示例中,我使用了属性选择器[],在第一个示例中,我使用了类的正常语法。参见Jsoupdocuaboutcssselector