草庐IT

BeautifulSoup4

全部标签

javascript - BeautifulSoup 像 nodejs 的刮刀

已结束。此问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提出有关书籍、工具、软件库等方面的建议的问题。您可以编辑问题,以便用事实和引用来回答它。关闭6年前。Improvethisquestion我是前python开发人员,我已经使用BS4几年了现在我正在使用node进行开发,是的,cheerio包非常好,但是我需要像BS4这样的东西来在node中进行抓取cheerio有什么替代品吗?谢谢! 最佳答案 我建议您查看x-raynodepackage.它本质上是cheerio之上的一个抽象层,它使“

python - 如何在 BeautifulSoup 中获得嵌套元素

我正在为获取td中的一些href所需的语法而苦苦挣扎。table、tr和td元素没有任何类或id。如果我想在这个例子中捕获anchor,我需要什么?...谢谢 最佳答案 根据文档,您首先制作一个解析树:importBeautifulSouphtml=""soup=BeautifulSoup.BeautifulSoup(html)然后在其中搜索,例如直接父级为的标签:foranainsoup.findAll('a'):ifana.parent.name=='td':printana["href"]

python - 在 BeautifulSoup 中扩展 CSS 选择器

问题:BeautifulSoup为CSSselectors提供非常有限的支持。。例如,唯一受支持的伪类是nth-of-type,它只能接受数值-even或odd等参数是不允许。是否可以扩展BeautifulSoupCSS选择器或让它使用lxml.cssselect在内部作为底层CSS选择机制?让我们看一个示例问题/用例。在以下HTML中仅定位偶数行:1234在lxml.html和lxml.cssselect中,通过:nth-of-type(even)很容易做到:fromlxml.htmlimportfromstringfromlxml.cssselectimportCSSSelecto

Python BeautifulSoup 抓取表

我正在尝试使用BeautifulSoup创建一个表格抓取。我写了这段Python代码:importurllib2frombs4importBeautifulSoupurl="http://dofollow.netsons.org/table1.htm"#changetowhateveryoururlispage=urllib2.urlopen(url).read()soup=BeautifulSoup(page)foriinsoup.find_all('form'):printi.attrs['class']我需要抓取Nome、Cognome、Email。

python - BeautifulSoup HTML 表格解析

我正在尝试解析来自该站点的信息(html表格):http://www.511virginia.org/RoadConditions.aspx?j=All&r=1目前我正在使用BeautifulSoup,我的代码如下所示frommechanizeimportBrowserfromBeautifulSoupimportBeautifulSoupmech=Browser()url="http://www.511virginia.org/RoadConditions.aspx?j=All&r=1"page=mech.open(url)html=page.read()soup=Beautiful

python - 如何在 Python 中使用 BeautifulSoup 保存对 HTML 文件所做的更改?

我有下面的脚本,它修改HTML文件中的href属性(将来,它将是目录中的HTML文件列表)。使用BeautifulSoup我设法访问标签值并按照我的意愿修改它们,但我不知道如何保存对文件所做的更改。importosimportrefrombs4importBeautifulSouphtmlDoc=open('adding_computer_c.html',"r+")soup=BeautifulSoup(htmlDoc)replacements=[('_','-'),('../tasks/',prefixUrl),('../concepts/',prefixUrl)]forlinkins

Python BeautifulSoup XML 解析

我编写了一个简单的脚本来使用BeautifulSoup模块解析XML聊天日志。标准的soup.prettify()工作正常,只是聊天日志中有很多绒毛。您可以在下面看到脚本代码和我正在使用的一些XML输入文件:代码importsysfromBeautifulSoupimportBeautifulSoupasSoupdefparseLog(file):file=sys.argv[1]handler=open(file).read()soup=Soup(handler)printsoup.prettify()if__name__=="__main__":parseLog(sys.argv[1

python - 如何使用 BeautifulSoup 4 替换或删除 HTML 实体,如 " "

我正在使用Python和BeautifulSoup4库处理HTML,但我找不到用空格替换 的明显方法。相反,它似乎被转换为Unicode不间断空格字符。我是否遗漏了一些明显的东西? 最好的替换方法是什么?使用BeautifulSoup的普通空间?编辑添加我使用的是最新版本BeautifulSoup4,因此BeautifulSoup3中的convertEntities=BeautifulSoup.HTML_ENTITIES选项不可用。 最佳答案 >>>soup=BeautifulSoup('a b')>>>soup.pret

php - PHP的 Mechanize 和BeautifulSoup?

已结束。此问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提出有关书籍、工具、软件库等方面的建议的问题。您可以编辑问题,以便用事实和引用来回答它。关闭5年前。Improvethisquestion我想知道PHP是否有类似Mechanize或BeautifulSoup之类的东西? 最佳答案 SimpleTest为您提供类似的功能:http://www.simpletest.org/en/browser_documentation.html 关于php-

python - 直接从 Python 在浏览器中启动 HTML 代码(由 BeautifulSoup 生成)

我使用BeautifulSoupforPython3.3成功地从网页中提取所需信息。我还使用BeautifulSoup生成新的HTML代码来显示此信息。目前,我的Python程序打印出HTML代码,然后我必须将其复制、粘贴并保存为HTML文件,然后我可以在浏览器中对其进行测试。所以我的问题是,有没有办法在Python中在网络浏览器中启动BeautifulSoup生成的HTML代码,这样我就不必通过我现在使用的复制和粘贴方法了? 最佳答案 使用webbrowser.open:importosimportwebbrowserhtml='