草庐IT

beautifulSoup

全部标签

python - 如何从 BeautifulSoup4 的 html 标签中找到特定的数据属性?

有没有办法只使用html中的data属性找到一个元素,然后获取该值?例如,在html文档中的这一行:如何通过在整个html文档中搜索具有data-bin属性的元素来检索Sdafdo39? 最佳答案 更准确一点[item['data-bin']foriteminbs.find_all('ul',attrs={'data-bin':True})]这样,迭代列表中只有具有您要查找的attr的ul元素frombs4importBeautifulSoupbs=BeautifulSoup(html_doc)html_doc="""foo"""[

python - 如何从 BeautifulSoup4 的 html 标签中找到特定的数据属性?

有没有办法只使用html中的data属性找到一个元素,然后获取该值?例如,在html文档中的这一行:如何通过在整个html文档中搜索具有data-bin属性的元素来检索Sdafdo39? 最佳答案 更准确一点[item['data-bin']foriteminbs.find_all('ul',attrs={'data-bin':True})]这样,迭代列表中只有具有您要查找的attr的ul元素frombs4importBeautifulSoupbs=BeautifulSoup(html_doc)html_doc="""foo"""[

python - <>在python中用beautifulsoup解析html时改为<和>

在使用Beautifulsoup处理html时,被转换为和>,由于taganchor都被转换了,所以整个soup失去了结构,有什么建议吗? 最佳答案 设置formatter=None可能会有所帮助(http://www.crummy.com/software/BeautifulSoup/bs4/doc/#output-formatters),但这可能表明您的HTML无效。如果这不起作用,您能否提供一些重现该问题的示例代码和HTML? 关于python-在python中用beautiful

python - <>在python中用beautifulsoup解析html时改为<和>

在使用Beautifulsoup处理html时,被转换为和>,由于taganchor都被转换了,所以整个soup失去了结构,有什么建议吗? 最佳答案 设置formatter=None可能会有所帮助(http://www.crummy.com/software/BeautifulSoup/bs4/doc/#output-formatters),但这可能表明您的HTML无效。如果这不起作用,您能否提供一些重现该问题的示例代码和HTML? 关于python-在python中用beautiful

python - 如何使用python和beautiful soup将一个html页面拆分为多个页面

我有一个像这样的简单html文件。事实上,我从维基页面中提取它,删除了一些html属性并转换为这个简单的html页面。drawelectronicsschematicsfirstheadersomeheadersecondheader我像这样使用python和漂亮的汤阅读了这个html文件。frombs4importBeautifulSoupsoup=BeautifulSoup(open("test.html"))pages=[]我想做的是将这个html页面分成两部分。第一部分将在第一个标题和第二个标题之间。第二部分将在第二个标题和

python - 如何使用python和beautiful soup将一个html页面拆分为多个页面

我有一个像这样的简单html文件。事实上,我从维基页面中提取它,删除了一些html属性并转换为这个简单的html页面。drawelectronicsschematicsfirstheadersomeheadersecondheader我像这样使用python和漂亮的汤阅读了这个html文件。frombs4importBeautifulSoupsoup=BeautifulSoup(open("test.html"))pages=[]我想做的是将这个html页面分成两部分。第一部分将在第一个标题和第二个标题之间。第二部分将在第二个标题和

python - beautifulsoup .get_text() 对我的 HTML 解析不够具体

鉴于下面的HTML代码,我只想输出h1的文本,而不是“关于”的详细信息,这是跨度的文本(由h1封装)。我当前的输出是:Detailsabout NewMen'sGenuineLeatherBifoldIDCreditCardMoneyHolderWalletBlack我愿意:NewMen'sGenuineLeatherBifoldIDCreditCardMoneyHolderWalletBlack这是我正在使用的HTMLDetailsabout NewMen'sGenuineLeatherBifoldIDCreditCardMoneyHolderWalletBlac

python - beautifulsoup .get_text() 对我的 HTML 解析不够具体

鉴于下面的HTML代码,我只想输出h1的文本,而不是“关于”的详细信息,这是跨度的文本(由h1封装)。我当前的输出是:Detailsabout NewMen'sGenuineLeatherBifoldIDCreditCardMoneyHolderWalletBlack我愿意:NewMen'sGenuineLeatherBifoldIDCreditCardMoneyHolderWalletBlack这是我正在使用的HTMLDetailsabout NewMen'sGenuineLeatherBifoldIDCreditCardMoneyHolderWalletBlac

python - 使用 BeautifulSoup 导航

我对如何使用BeautifulSoup导航HTML树有点困惑。importrequestsfrombs4importBeautifulSoupurl='http://examplewebsite.com'source=requests.get(url)content=source.contentsoup=BeautifulSoup(source.content,"html.parser")#NowInavigatethesoupforainsoup.findAll('a'):printa.get("href")有没有办法通过标签只找到特定的href?例如,我想要的所有href都由某个名

python - 使用 BeautifulSoup 导航

我对如何使用BeautifulSoup导航HTML树有点困惑。importrequestsfrombs4importBeautifulSoupurl='http://examplewebsite.com'source=requests.get(url)content=source.contentsoup=BeautifulSoup(source.content,"html.parser")#NowInavigatethesoupforainsoup.findAll('a'):printa.get("href")有没有办法通过标签只找到特定的href?例如,我想要的所有href都由某个名