BeautifulSoup4

python - 使用 BeautifulSoup 选择 HTML 中的 div block

我正在尝试使用来自网站的一些html使用BeautifulSoup解析几个divblock。但是，我不知道应该使用哪个函数来选择这些divblock。我尝试了以下方法:importurllib2frombs4importBeautifulSoupdefgetData():html=urllib2.urlopen("http://www.racingpost.com/horses2/results/home.sd?r_date=2013-09-22",timeout=10).read().decode('UTF-8')soup=BeautifulSoup(html)print(soup.

python - 如何使用 BeautifulSoup bs4 获取 HTML 标签的内部文本值？

当使用BeautifulSoupbs4时，如何从HTML标签中获取文本？当我运行这一行时:oname=soup.find("title")我得到这样的title标签:pagename现在我只想获取它的内部文本，页面名称，不带标签。如何做到这一点？最佳答案使用.text从标签中获取文本。oname=soup.find("title")oname.text或者只是soup.title.textIn[4]:frombs4importBeautifulSoupIn[5]:importrequestsIn[6]:r=requests.ge

BeautifulSoup python code section title html

python - 如何使用 BeautifulSoup bs4 获取 HTML 标签的内部文本值？

当使用BeautifulSoupbs4时，如何从HTML标签中获取文本？当我运行这一行时:oname=soup.find("title")我得到这样的title标签:pagename现在我只想获取它的内部文本，页面名称，不带标签。如何做到这一点？最佳答案使用.text从标签中获取文本。oname=soup.find("title")oname.text或者只是soup.title.textIn[4]:frombs4importBeautifulSoupIn[5]:importrequestsIn[6]:r=requests.ge

BeautifulSoup python code section title html

Python 模块 BeautifulSoup 提取 anchor href

我正在使用BeautifulSoup模块通过这种方式从html中选择所有href:defextract_links(html):soup=BeautifulSoup(html)anchors=soup.findAll('a')printanchorslinks=[]forainanchors:links.append(a['href'])returnlinks但有时它因以下错误消息而失败:Traceback(mostrecentcalllast):File"C:\py\main.py",line33,inurls=extract_links(page)File"C:\py\main.p

BeautifulSoup Python section href links html

Python 模块 BeautifulSoup 提取 anchor href

我正在使用BeautifulSoup模块通过这种方式从html中选择所有href:defextract_links(html):soup=BeautifulSoup(html)anchors=soup.findAll('a')printanchorslinks=[]forainanchors:links.append(a['href'])returnlinks但有时它因以下错误消息而失败:Traceback(mostrecentcalllast):File"C:\py\main.py",line33,inurls=extract_links(page)File"C:\py\main.p

BeautifulSoup Python section href links html

python - 使用 BeautifulSoup 解析未关闭的 `<br>` 标签

BeautifulSoup具有连续关闭的逻辑不完全符合我的要求的标签。例如，>>>frombs4importBeautifulSoup>>>bs=BeautifulSoup('onetwothreefour')HTML将呈现为onetwothreefour我想把它解析成一个字符串列表，['one','two','three','four'].BeautifulSoup的标签关闭逻辑意味着当我请求所有时我得到嵌套标签元素。>>>bs('br')[twothreefour,threefour,four]有没有一种简单的方法可以得到我想要的结果？最佳答案

BeautifulSoup amp code gt 39 python html

python - 使用 BeautifulSoup 解析未关闭的 `<br>` 标签

BeautifulSoup具有连续关闭的逻辑不完全符合我的要求的标签。例如，>>>frombs4importBeautifulSoup>>>bs=BeautifulSoup('onetwothreefour')HTML将呈现为onetwothreefour我想把它解析成一个字符串列表，['one','two','three','four'].BeautifulSoup的标签关闭逻辑意味着当我请求所有时我得到嵌套标签元素。>>>bs('br')[twothreefour,threefour,four]有没有一种简单的方法可以得到我想要的结果？最佳答案

BeautifulSoup amp code gt 39 python html

python - 如何使用 BeautifulSoup 从表中获取第一个和第三个 td？

我目前正在使用Python和BeautifulSoup来抓取一些网站数据。我正在尝试从格式如下的表格中提取单元格:1205%上述HTML的问题在于BeautifulSoup将其作为一个标签读取。我需要从第一个中提取值第三个，分别为1和20。不幸的是，我不知道该怎么做。我怎样才能让BeautifulSoup阅读第一和第三表格每一行的标签？更新:我发现了问题。我用的是html.parser而不是BeautifulSoup的默认值。一旦我切换到默认设置，问题就消失了。我也使用了答案中列出的方法。我还发现，不同的解析器对于损坏的代码非常喜怒无常。例如，默认解析器拒绝读取第192行之后的内容，但

BeautifulSoup python gt lt td html html-table html-parsing

python - 如何使用 BeautifulSoup 从表中获取第一个和第三个 td？

我目前正在使用Python和BeautifulSoup来抓取一些网站数据。我正在尝试从格式如下的表格中提取单元格:1205%上述HTML的问题在于BeautifulSoup将其作为一个标签读取。我需要从第一个中提取值第三个，分别为1和20。不幸的是，我不知道该怎么做。我怎样才能让BeautifulSoup阅读第一和第三表格每一行的标签？更新:我发现了问题。我用的是html.parser而不是BeautifulSoup的默认值。一旦我切换到默认设置，问题就消失了。我也使用了答案中列出的方法。我还发现，不同的解析器对于损坏的代码非常喜怒无常。例如，默认解析器拒绝读取第192行之后的内容，但

BeautifulSoup python gt lt td html html-table html-parsing

python - 从大文件中剥离 html 比 BeautifulSoup 更快/更少的资源破坏方式？或者，使用 BeautifulSoup 的更好方法？

目前我无法输入这个，因为根据top，我的处理器是100%，我的内存是85.7%，都被python占用了。为什么？因为我让它通过一个250兆的文件来删除标记。250兆，就是这样!我一直在用python使用许多其他模块和东西来处理这些文件；BeautifulSoup是第一个给我带来如此小的问题的代码。如何将近4GB的RAM用于处理250兆的html？我发现(在stackoverflow上)并一直在使用的单行代码是这样的:''.join(BeautifulSoup(corpus).findAll(text=True))此外，这似乎删除了除标记之外的所有内容，这与我想要做的有点相反。我确信Be

BeautifulSoup 大文 html python stackoverflow parsing performance