beautifulSoup_草庐IT

python - 使用 Python 从 HTML 生成目录

我正在尝试根据其从HTMLblock(不是完整文件-只是内容)生成目录和标签。到目前为止，我的计划是:使用beautifulsoup提取标题列表在内容上使用正则表达式在标题标签之前/内部放置anchor链接(以便用户可以单击目录)——可能有一种方法可以在beautifulsoup中替换?在预定义位置输出指向标题的嵌套链接列表。说起来好像很简单，但事实证明有点背痛。有没有什么东西可以一次性为我完成所有这些工作，这样我就不会浪费接下来的几个小时来重新发明轮子？一个例子:ThisisanintroductionThisisasub-header...Thisisasub-sub-header

python - 使用 Python 从 HTML 生成目录

我正在尝试根据其从HTMLblock(不是完整文件-只是内容)生成目录和标签。到目前为止，我的计划是:使用beautifulsoup提取标题列表在内容上使用正则表达式在标题标签之前/内部放置anchor链接(以便用户可以单击目录)——可能有一种方法可以在beautifulsoup中替换?在预定义位置输出指向标题的嵌套链接列表。说起来好像很简单，但事实证明有点背痛。有没有什么东西可以一次性为我完成所有这些工作，这样我就不会浪费接下来的几个小时来重新发明轮子？一个例子:ThisisanintroductionThisisasub-header...Thisisasub-sub-header

python header current_list code html beautifulsoup tableofcontents

python - 仅当有两个类并且共享相同的第一个时才选择元素

我要解析的HTML中有这些元素:GARBAGEIWANTTHATIWANTTHATGARBAGE我如何制作一个CSS选择器来选择具有属性类line和其他类(可以是标题、文本或其他任何东西)但不只是属性类line的元素？我试过:td[class=line.*]td.line.*td[class^=line.]编辑我正在使用Python和BeautifulSoup:url='http://www.somewebsite'res=requests.get(url)res.raise_for_status()DicoSoup=bs4.BeautifulSoup(res.text,"lxml")

python 仅当 code line 34 html css-selectors beautifulsoup html-parsing

python - 仅当有两个类并且共享相同的第一个时才选择元素

我要解析的HTML中有这些元素:GARBAGEIWANTTHATIWANTTHATGARBAGE我如何制作一个CSS选择器来选择具有属性类line和其他类(可以是标题、文本或其他任何东西)但不只是属性类line的元素？我试过:td[class=line.*]td.line.*td[class^=line.]编辑我正在使用Python和BeautifulSoup:url='http://www.somewebsite'res=requests.get(url)res.raise_for_status()DicoSoup=bs4.BeautifulSoup(res.text,"lxml")

python 仅当 code line 34 html css-selectors beautifulsoup html-parsing

python - BeautifulSoup 获取特定列的所有值

我正在使用BeautifulSoup来解析html。到目前为止，我有以下代码:url="http://routerpasswords.com"data={"findpass":"1","router":"Belkin","findpassword":"FindPassword"}post_data=urllib.urlencode(data)req=urllib2.urlopen(url,post_data)html_str=req.read()parser=newBeautifulSoup(html_str)table=parser.find("table")有没有办法得到列下所有单

BeautifulSoup python gt lt td html python-2.7 html-parsing

python - BeautifulSoup 获取特定列的所有值

我正在使用BeautifulSoup来解析html。到目前为止，我有以下代码:url="http://routerpasswords.com"data={"findpass":"1","router":"Belkin","findpassword":"FindPassword"}post_data=urllib.urlencode(data)req=urllib2.urlopen(url,post_data)html_str=req.read()parser=newBeautifulSoup(html_str)table=parser.find("table")有没有办法得到列下所有单

BeautifulSoup python gt lt td html python-2.7 html-parsing

python - 仅在带有特定文本的标签之后查找特定类别的所有标签

我在HTML中有一个很大的长表，因此标签没有相互嵌套。它看起来像这样:A........................B............Iwantthisandthisandthisandthis所以首先我想搜索树以找到“B”。然后我想在B之后但在表格的下一行以“C”开始之前获取每个带有y类的td标签的文本。我已经试过了:results=soup.find_all('td')forresultinresults:ifresult.string=="B":print(result.string)这让我得到了我想要的字符串B。但现在我试图在此之后找到所有内容，但我没有得到我想要的

python 特定 34 lt gt html beautifulsoup html-parsing

python - 仅在带有特定文本的标签之后查找特定类别的所有标签

我在HTML中有一个很大的长表，因此标签没有相互嵌套。它看起来像这样:A........................B............Iwantthisandthisandthisandthis所以首先我想搜索树以找到“B”。然后我想在B之后但在表格的下一行以“C”开始之前获取每个带有y类的td标签的文本。我已经试过了:results=soup.find_all('td')forresultinresults:ifresult.string=="B":print(result.string)这让我得到了我想要的字符串B。但现在我试图在此之后找到所有内容，但我没有得到我想要的

python 特定 34 lt gt html beautifulsoup html-parsing

python - BeautifulSoup/Python - 将 HTML 表格转换为 CSV 并获取一列的 href

我正在用这段代码抓取一个HTML表格:importcsvimporturllib2frombs4importBeautifulSoupwithopen('listing.csv','wb')asf:writer=csv.writer(f)foriinrange(39):url="file:///C:/projects/HTML/Export.htm".format(i)u=urllib2.urlopen(url)try:html=u.read()finally:u.close()soup=BeautifulSoup(html)fortrinsoup.find_all('tr')[2:]

BeautifulSoup python 39 code section html csv

python - BeautifulSoup/Python - 将 HTML 表格转换为 CSV 并获取一列的 href

我正在用这段代码抓取一个HTML表格:importcsvimporturllib2frombs4importBeautifulSoupwithopen('listing.csv','wb')asf:writer=csv.writer(f)foriinrange(39):url="file:///C:/projects/HTML/Export.htm".format(i)u=urllib2.urlopen(url)try:html=u.read()finally:u.close()soup=BeautifulSoup(html)fortrinsoup.find_all('tr')[2:]

BeautifulSoup python 39 code section html csv