草庐IT

BeautifulSoup4

全部标签

python - 使用 BeautifulSoup 导航

我对如何使用BeautifulSoup导航HTML树有点困惑。importrequestsfrombs4importBeautifulSoupurl='http://examplewebsite.com'source=requests.get(url)content=source.contentsoup=BeautifulSoup(source.content,"html.parser")#NowInavigatethesoupforainsoup.findAll('a'):printa.get("href")有没有办法通过标签只找到特定的href?例如,我想要的所有href都由某个名

python - 你如何使用 BeautifulSoup 从 HTML 'datacell' 中获取文本

我一直在尝试从HTML文件中删除一些数据。我有逻辑编码以获得正确的单元格。现在我正在努力获取“单元格”的实际内容:这是我的HTML片段:headerRows[0][10].contents[ApplesProduced]请注意,这是来自Python[]的列表项。我需要ApplesProduced的值(value),但无法获得它。如有任何建议,我们将不胜感激关于解释这一点的好书的建议将赢得我永远的感激感谢您的回答。但是,是否没有更通用的答案。如果我的单元格没有粗体属性会怎样说是:[ApplesProduced]生产的苹果我正在努力学习阅读/理解文档,您的回复会有所帮助非常感谢您的帮助。关

python - 你如何使用 BeautifulSoup 从 HTML 'datacell' 中获取文本

我一直在尝试从HTML文件中删除一些数据。我有逻辑编码以获得正确的单元格。现在我正在努力获取“单元格”的实际内容:这是我的HTML片段:headerRows[0][10].contents[ApplesProduced]请注意,这是来自Python[]的列表项。我需要ApplesProduced的值(value),但无法获得它。如有任何建议,我们将不胜感激关于解释这一点的好书的建议将赢得我永远的感激感谢您的回答。但是,是否没有更通用的答案。如果我的单元格没有粗体属性会怎样说是:[ApplesProduced]生产的苹果我正在努力学习阅读/理解文档,您的回复会有所帮助非常感谢您的帮助。关

python - 从汤 BeautifulSoup/Python 中删除 span 标签

我有一个像这样的Python汤:Title:InfoTitle2:Info2我想让它看起来像这样:Title:InfoTitle2:Info2有没有办法用bs4做到这一点? 最佳答案 你会想要使用beautifulsoup的unwrap()为此。importbs4soup1=bs4.BeautifulSoup(htm1,'html.parser')formatchinsoup1.findAll('span'):match.unwrap()printsoup1 关于python-从汤Bea

python - 从汤 BeautifulSoup/Python 中删除 span 标签

我有一个像这样的Python汤:Title:InfoTitle2:Info2我想让它看起来像这样:Title:InfoTitle2:Info2有没有办法用bs4做到这一点? 最佳答案 你会想要使用beautifulsoup的unwrap()为此。importbs4soup1=bs4.BeautifulSoup(htm1,'html.parser')formatchinsoup1.findAll('span'):match.unwrap()printsoup1 关于python-从汤Bea

python - BeautifulSoup 4 : How to replace a tag with text and another tag?

我想用另一个标签替换一个标签,并将旧标签的内容放在新标签之前。例如:我想改变这个:ThisisthefirstparagraphThisisthesecondparagraph进入这个:Thisisthefirst1paragraphThisisthesecond2paragraph我可以使用find_all()轻松找到所有spans,从id属性中获取数字并使用replace_with(),但如何用文本和替换标签或在替换标签前插入文本? 最佳答案 想法是找到每个带有id属性的span标签(span[id]CSSSelector),使

python - BeautifulSoup 4 : How to replace a tag with text and another tag?

我想用另一个标签替换一个标签,并将旧标签的内容放在新标签之前。例如:我想改变这个:ThisisthefirstparagraphThisisthesecondparagraph进入这个:Thisisthefirst1paragraphThisisthesecond2paragraph我可以使用find_all()轻松找到所有spans,从id属性中获取数字并使用replace_with(),但如何用文本和替换标签或在替换标签前插入文本? 最佳答案 想法是找到每个带有id属性的span标签(span[id]CSSSelector),使

python - 在 Beautifulsoup Python 上排除不需要的标签

ILiketopunchyourface如何打印“我喜欢你的脸”而不是“我喜欢打你的脸”我试过了lala=soup.find_all('span')forpinlala:ifnotp.find(class_='unwanted'):printp.text但它给“TypeError:find()没有关键字参数” 最佳答案 您可以使用extract()在获取文本之前删除不需要的标签。但它会保留所有'\n'和spaces,因此您需要做一些工作才能删除它们。data='''ILiketopunchyourface'''frombs4impo

python - 在 Beautifulsoup Python 上排除不需要的标签

ILiketopunchyourface如何打印“我喜欢你的脸”而不是“我喜欢打你的脸”我试过了lala=soup.find_all('span')forpinlala:ifnotp.find(class_='unwanted'):printp.text但它给“TypeError:find()没有关键字参数” 最佳答案 您可以使用extract()在获取文本之前删除不需要的标签。但它会保留所有'\n'和spaces,因此您需要做一些工作才能删除它们。data='''ILiketopunchyourface'''frombs4impo

python - 使用 BeautifulSoup 从文本中删除标签

这里有很多标题相似的问题,但我正在尝试从soup对象本身中删除标签。我有一个页面,其中包含这个div:IwanttokeepthisIwanttoremovethis我可以选择与soup.find('div',id='content')但我想删除从它。 最佳答案 您可以使用extract如果您想从树中删除标签或字符串。In[13]:soup=BeautifulSoup("""IwanttokeepthisIwanttoremovethis""")In[14]:soup=BeautifulSoup("""....:Iwanttokee