草庐IT

beautifulSoup

全部标签

python - 你如何使用 BeautifulSoup 从 HTML 'datacell' 中获取文本

我一直在尝试从HTML文件中删除一些数据。我有逻辑编码以获得正确的单元格。现在我正在努力获取“单元格”的实际内容:这是我的HTML片段:headerRows[0][10].contents[ApplesProduced]请注意,这是来自Python[]的列表项。我需要ApplesProduced的值(value),但无法获得它。如有任何建议,我们将不胜感激关于解释这一点的好书的建议将赢得我永远的感激感谢您的回答。但是,是否没有更通用的答案。如果我的单元格没有粗体属性会怎样说是:[ApplesProduced]生产的苹果我正在努力学习阅读/理解文档,您的回复会有所帮助非常感谢您的帮助。关

python - 你如何使用 BeautifulSoup 从 HTML 'datacell' 中获取文本

我一直在尝试从HTML文件中删除一些数据。我有逻辑编码以获得正确的单元格。现在我正在努力获取“单元格”的实际内容:这是我的HTML片段:headerRows[0][10].contents[ApplesProduced]请注意,这是来自Python[]的列表项。我需要ApplesProduced的值(value),但无法获得它。如有任何建议,我们将不胜感激关于解释这一点的好书的建议将赢得我永远的感激感谢您的回答。但是,是否没有更通用的答案。如果我的单元格没有粗体属性会怎样说是:[ApplesProduced]生产的苹果我正在努力学习阅读/理解文档,您的回复会有所帮助非常感谢您的帮助。关

python - 如何获取 "subsoups"并连接/加入它们?

我有一个HTML文档需要处理。为此,我正在使用“beautifoulsoup”。现在我想从该文档中检索一些“子汤”并将它们加入一个汤中,这样我以后可以将它用作需要汤对象的函数的参数。如果不清楚,我给你举个例子...frombs4importBeautifulSoupmy_document="""SomeHeadingAparagraph.AlinkAparagraph.Aparagraph.Aparagraph.Aparagraph.AlinkAlinkAparagraph."""soup=BeautifulSoup(my_document)#findtheneededpartsfir

python - 如何获取 "subsoups"并连接/加入它们?

我有一个HTML文档需要处理。为此,我正在使用“beautifoulsoup”。现在我想从该文档中检索一些“子汤”并将它们加入一个汤中,这样我以后可以将它用作需要汤对象的函数的参数。如果不清楚,我给你举个例子...frombs4importBeautifulSoupmy_document="""SomeHeadingAparagraph.AlinkAparagraph.Aparagraph.Aparagraph.Aparagraph.AlinkAlinkAparagraph."""soup=BeautifulSoup(my_document)#findtheneededpartsfir

html - Selenium - XPath - 通过 innerHTML 搜索元素

我正在学习Selenium并且对XPath有很好的掌握。我遇到的一个问题是,在网页上,我想选择一个具有动态生成的id的元素。和class.我曾尝试过以下方法:code=driver.find_element_by_xpath("//*[contains(@text='someUniqueString')]")但是,该元素没有任何文本。相反,它是带有JSON的元素。{"dataIWantToGrab":{"someUniqueString":...}}我要搜索innerHTML使用CPU查找唯一字符串,但我找不到任何好的资源。我试过了driver.find_element_by_xpat

html - Selenium - XPath - 通过 innerHTML 搜索元素

我正在学习Selenium并且对XPath有很好的掌握。我遇到的一个问题是,在网页上,我想选择一个具有动态生成的id的元素。和class.我曾尝试过以下方法:code=driver.find_element_by_xpath("//*[contains(@text='someUniqueString')]")但是,该元素没有任何文本。相反,它是带有JSON的元素。{"dataIWantToGrab":{"someUniqueString":...}}我要搜索innerHTML使用CPU查找唯一字符串,但我找不到任何好的资源。我试过了driver.find_element_by_xpat

python - 从汤 BeautifulSoup/Python 中删除 span 标签

我有一个像这样的Python汤:Title:InfoTitle2:Info2我想让它看起来像这样:Title:InfoTitle2:Info2有没有办法用bs4做到这一点? 最佳答案 你会想要使用beautifulsoup的unwrap()为此。importbs4soup1=bs4.BeautifulSoup(htm1,'html.parser')formatchinsoup1.findAll('span'):match.unwrap()printsoup1 关于python-从汤Bea

python - 从汤 BeautifulSoup/Python 中删除 span 标签

我有一个像这样的Python汤:Title:InfoTitle2:Info2我想让它看起来像这样:Title:InfoTitle2:Info2有没有办法用bs4做到这一点? 最佳答案 你会想要使用beautifulsoup的unwrap()为此。importbs4soup1=bs4.BeautifulSoup(htm1,'html.parser')formatchinsoup1.findAll('span'):match.unwrap()printsoup1 关于python-从汤Bea

python - BeautifulSoup 4 : How to replace a tag with text and another tag?

我想用另一个标签替换一个标签,并将旧标签的内容放在新标签之前。例如:我想改变这个:ThisisthefirstparagraphThisisthesecondparagraph进入这个:Thisisthefirst1paragraphThisisthesecond2paragraph我可以使用find_all()轻松找到所有spans,从id属性中获取数字并使用replace_with(),但如何用文本和替换标签或在替换标签前插入文本? 最佳答案 想法是找到每个带有id属性的span标签(span[id]CSSSelector),使

python - BeautifulSoup 4 : How to replace a tag with text and another tag?

我想用另一个标签替换一个标签,并将旧标签的内容放在新标签之前。例如:我想改变这个:ThisisthefirstparagraphThisisthesecondparagraph进入这个:Thisisthefirst1paragraphThisisthesecond2paragraph我可以使用find_all()轻松找到所有spans,从id属性中获取数字并使用replace_with(),但如何用文本和替换标签或在替换标签前插入文本? 最佳答案 想法是找到每个带有id属性的span标签(span[id]CSSSelector),使