BeautifulSoup4

python - BeautifulSoup 解析树的深度优先遍历

有没有办法在BeautifulSoup解析树上进行DFT？我正在尝试做一些事情，比如从根开始，通常，获取所有子元素，然后为每个子元素获取它们的子元素，等等，直到我到达一个终端节点，此时我将重新构建树.问题是我似乎找不到可以让我这样做的方法。我找到了findChildren方法，但它似乎只是将整个页面多次放入列表中，每个后续条目都会减少。我也许可以使用它来进行遍历，但是除了列表中的最后一个条目之外，它没有出现，没有任何方法可以将条目识别为终端节点。有什么想法吗？最佳答案 mytag.find_all()已经这样做了:Ifyoucal

python - BeautifulSoup - 我应该如何获取正文内容

我正在使用BeautifulSoup解析HTML。最后，我想获取body内容，但没有body标签。但是BeautifulSoup添加了html、head和body标签。我thisgooglegropsdiscussion提出了一种可能的解决方案:>>>frombs4importBeautifulSoupasSoup>>>soup=Soup('Someparagraph')>>>soup.body.hidden=True>>>soup.body.prettify()u'\nSomeparagraph\n'这个解决方案是一个hack。应该有更好、更明显的方法来做到这一点。

BeautifulSoup python code section django html5lib

python - 使用 urllib 和 BeautifulSoup 通过 Python 从 web 检索信息

我可以使用urllib获取html页面，并使用BeautifulSoup解析html页面，看起来我必须生成要从BeautifulSoup读取的文件。importurllibsock=urllib.urlopen("http://SOMEWHERE")htmlSource=sock.read()sock.close()-->writetofile有没有办法在不从urllib生成文件的情况下调用BeautifulSoup？最佳答案 fromBeautifulSoupimportBeautifulSoupsoup=BeautifulSo

BeautifulSoup python section code web-scraping urllib2

python - BeautifulSoup Prettify 在版权符号上失败

我收到一个Unicode错误:UnicodeEncodeError:'charmap'codeccan'tencodecharacteru'\xa9'inposition822:charactermapsto这似乎是一个标准的版权符号，在HTML中是©。我一直无法找到解决这个问题的方法。我什至尝试了一个自定义函数来用空格替换副本，但同样的错误也失败了。importsysimportpprintimportmechanizeimportcookielibfrombs4importBeautifulSoupimporthtml2textimportlxmldefMakePretty

BeautifulSoup Prettify section import handle python unicode

python - BeautifulSoup(html) 不工作，说不能调用模块？

importurllib2importurllibfromBeautifulSoupimportBeautifulSoup#htmlfromBeautifulSoupimportBeautifulStoneSoup#xmlimportBeautifulSoup#everythingimportref=o.open('http://www.google.com',p)html=f.read()f.close()soup=BeautifulSoup(html)收到一条错误消息，指出带有soup=BeautifulSoup(html)的行表示“模块”对象不可调用。

BeautifulSoup python import code

python - 关于 BeautifulSoup 中 get_text() 的建议

我正在使用BeautifulSoup来解析html页面中的一些内容。我可以从html中提取我想要的内容(即包含在由spanmyclass定义的class中的文本)。result=mycontent.find(attrs={'class':'myclass'})我得到这个结果:Loremipsumdolorsitamet,consectetur...如果我尝试使用以下方法提取文本:result.get_text()我得到:Loremipsumdolorsitamet,consectetur...如您所见，标记时被删除，内容之间不再有空格，两个单词被连接起来。我该如何解决这个问题？

BeautifulSoup get_text code section pre python

python - 带有 br 标签的 Beautifulsoup 兄弟结构

我正在尝试使用BeautifulSoupPython库解析HTML文档，但结构因而变得扭曲标签。让我举个例子。输入HTML:sometextsomemoretextandmoretextBeautifulSoup解释的HTML:sometextsomemoretextandmoretext在源代码中，跨度可以被视为sibling。解析后(使用默认解析器)，跨度突然不再是sibling，因为br标签成为结构的一部分。我能想到的解决办法是去掉标签，然后将html倒入Beautifulsoup，但这看起来不是很优雅，因为它需要我更改输入。有什么更好的方法来解决这个问题？

Beautifulsoup python gt lt span

python - Python 中的 BeautifulSoup - 获取类型的第 n 个标签

我有一些包含许多的html代码就在里面。我正在尝试获取第二个表中的信息。有没有办法不使用soup.findAll('table')来做到这一点？？当我使用soup.findAll('table')时，我得到一个错误:ValueError:toomanyvaluestounpack有没有办法用一些代码或其他不需要遍历所有表格的方法来获取第n个标签？或者我应该看看我是否可以在表格中添加标题？(如)如果有帮助，每个表格上方还有标题(title)。谢谢。编辑当我问这个问题时，我是这样想的:我将对象拆包成两个值，但实际上还有更多。我以为这只会给我列表中的前两件事，但当然，它一直给我上面提到的错误

BeautifulSoup python code table section

python - BeautifulSoup - 类型错误 : 'NoneType' object is not callable

我需要使我的代码向后兼容python2.6和BeautifulSoup3。我的代码是使用python2.7编写的，在本例中使用的是BS4。但是当我尝试在squeezy服务器上运行它时，我得到了这个错误(它有python2.6和bs3):try:frombs4importBeautifulSoupexceptImportError:fromBeautifulSoupimportBeautifulSoupgmp=open(fname,'r')soup=BeautifulSoup(gmp)p=soup.body.div.find_all('p')p=soup.body.div.find_al

BeautifulSoup amp code section python backwards-compatibility

python - 使用 BeautifulSoup 从表中提取选定的列

我正在尝试提取thisdatatable的第一列和第三列使用BeautifulSoup。通过查看HTML，第一列有一个标签。感兴趣的另一列为标签。无论如何，我所能得到的只是带有标签的列列表。但是，我只想要文本。table已经是一个列表，所以我不能使用findAll(text=True).我不确定如何以另一种形式获取第一列的列表。fromBeautifulSoupimportBeautifulSoupfromsysimportargvimportrefilename=argv[1]#getHTMLfileasastringhtml_doc=''.join(open(filename,'r

BeautifulSoup python code section html-parsing

26 27 282930 31 32