BeautifulSoup4

javascript - BeautifulSoup 像 nodejs 的刮刀

已结束。此问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提出有关书籍、工具、软件库等方面的建议的问题。您可以编辑问题，以便用事实和引用来回答它。关闭6年前。Improvethisquestion我是前python开发人员，我已经使用BS4几年了现在我正在使用node进行开发，是的，cheerio包非常好，但是我需要像BS4这样的东西来在node中进行抓取cheerio有什么替代品吗？谢谢! 最佳答案我建议您查看x-raynodepackage.它本质上是cheerio之上的一个抽象层，它使“

刮刀 BeautifulSoup section stackoverflow class javascript node.js web-scraping cheerio

python - 如何在 BeautifulSoup 中获得嵌套元素

我正在为获取td中的一些href所需的语法而苦苦挣扎。table、tr和td元素没有任何类或id。如果我想在这个例子中捕获anchor，我需要什么？...谢谢最佳答案根据文档，您首先制作一个解析树:importBeautifulSouphtml=""soup=BeautifulSoup.BeautifulSoup(html)然后在其中搜索，例如直接父级为的标签:foranainsoup.findAll('a'):ifana.parent.name=='td':printana["href"]

BeautifulSoup 何在 section code python

python - 在 BeautifulSoup 中扩展 CSS 选择器

问题:BeautifulSoup为CSSselectors提供非常有限的支持。。例如，唯一受支持的伪类是nth-of-type，它只能接受数值-even或odd等参数是不允许。是否可以扩展BeautifulSoupCSS选择器或让它使用lxml.cssselect在内部作为底层CSS选择机制？让我们看一个示例问题/用例。在以下HTML中仅定位偶数行:1234在lxml.html和lxml.cssselect中，通过:nth-of-type(even)很容易做到:fromlxml.htmlimportfromstringfromlxml.cssselectimportCSSSelecto

BeautifulSoup python code token 34 css-selectors html-parsing lxml.html

Python BeautifulSoup 抓取表

我正在尝试使用BeautifulSoup创建一个表格抓取。我写了这段Python代码:importurllib2frombs4importBeautifulSoupurl="http://dofollow.netsons.org/table1.htm"#changetowhateveryoururlispage=urllib2.urlopen(url).read()soup=BeautifulSoup(page)foriinsoup.find_all('form'):printi.attrs['class']我需要抓取Nome、Cognome、Email。

BeautifulSoup Python code section 39 html web-scraping html-parsing

python - BeautifulSoup HTML 表格解析

我正在尝试解析来自该站点的信息(html表格):http://www.511virginia.org/RoadConditions.aspx?j=All&r=1目前我正在使用BeautifulSoup，我的代码如下所示frommechanizeimportBrowserfromBeautifulSoupimportBeautifulSoupmech=Browser()url="http://www.511virginia.org/RoadConditions.aspx?j=All&r=1"page=mech.open(url)html=page.read()soup=Beautiful

BeautifulSoup python 34 code 39 html-table html-parsing mechanize

python - 如何在 Python 中使用 BeautifulSoup 保存对 HTML 文件所做的更改？

我有下面的脚本，它修改HTML文件中的href属性(将来，它将是目录中的HTML文件列表)。使用BeautifulSoup我设法访问标签值并按照我的意愿修改它们，但我不知道如何保存对文件所做的更改。importosimportrefrombs4importBeautifulSouphtmlDoc=open('adding_computer_c.html',"r+")soup=BeautifulSoup(htmlDoc)replacements=[('_','-'),('../tasks/',prefixUrl),('../concepts/',prefixUrl)]forlinkins

BeautifulSoup 何在 newlink code section python html-parsing

Python BeautifulSoup XML 解析

我编写了一个简单的脚本来使用BeautifulSoup模块解析XML聊天日志。标准的soup.prettify()工作正常，只是聊天日志中有很多绒毛。您可以在下面看到脚本代码和我正在使用的一些XML输入文件:代码importsysfromBeautifulSoupimportBeautifulSoupasSoupdefparseLog(file):file=sys.argv[1]handler=open(file).read()soup=Soup(handler)printsoup.prettify()if__name__=="__main__":parseLog(sys.argv[1

BeautifulSoup Python 34 gt lt xml parsing

python - 如何使用 BeautifulSoup 4 替换或删除 HTML 实体，如 " "

我正在使用Python和BeautifulSoup4库处理HTML，但我找不到用空格替换的明显方法。相反，它似乎被转换为Unicode不间断空格字符。我是否遗漏了一些明显的东西？最好的替换方法是什么？使用BeautifulSoup的普通空间？编辑添加我使用的是最新版本BeautifulSoup4，因此BeautifulSoup3中的convertEntities=BeautifulSoup.HTML_ENTITIES选项不可用。最佳答案 >>>soup=BeautifulSoup('a b')>>>soup.pret

amp BeautifulSoup section gt python

php - PHP的 Mechanize 和BeautifulSoup？

已结束。此问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提出有关书籍、工具、软件库等方面的建议的问题。您可以编辑问题，以便用事实和引用来回答它。关闭5年前。Improvethisquestion我想知道PHP是否有类似Mechanize或BeautifulSoup之类的东西？最佳答案 SimpleTest为您提供类似的功能:http://www.simpletest.org/en/browser_documentation.html 关于php-

BeautifulSoup Mechanize section stackoverflow class php python

python - 直接从 Python 在浏览器中启动 HTML 代码(由 BeautifulSoup 生成)

我使用BeautifulSoupforPython3.3成功地从网页中提取所需信息。我还使用BeautifulSoup生成新的HTML代码来显示此信息。目前，我的Python程序打印出HTML代码，然后我必须将其复制、粘贴并保存为HTML文件，然后我可以在浏览器中对其进行测试。所以我的问题是，有没有办法在Python中在网络浏览器中启动BeautifulSoup生成的HTML代码，这样我就不必通过我现在使用的复制和粘贴方法了？最佳答案使用webbrowser.open:importosimportwebbrowserhtml='

BeautifulSoup python html webbrowser section python-3.x

32 33 343536 37 38