草庐IT

BeautifulSoup4

全部标签

python - 从标签 beautifulsoup python 中提取类名

我有以下HTML代码:OtherText(2013)我正在尝试使用漂亮的汤将某些元素解析为制表符分隔的文件。我得到了一些很大的帮助,并且:fortdinsoup.select('td.title'):span=td.select('span.wlb_wrapper')ifspan:printspan[0].get('data-tconst')#Toget`tt0082971`现在我想获取“目标文本1”。我试过一些类似上面的文字,例如:fortdinsoup.select('td.image'):#tryingtoselectthetagimg=td.select('a.title')#

python - BeautifulSoup:如何在特定的 html 标签后提取数据

我有以下html,我想弄清楚我如何准确地告诉BeautifulSoup在某些html元素之后提取td。在这种情况下,我想在中获取数据在ColorDigest之后ColorDigest2,36,156,38,25,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,

python - 使用 Python BeautifulSoup 解析 HTML 表格

我正在尝试使用BeautifulSoup来解析我上传到http://pastie.org/8070879的html表格为了获得三列(0到735、0.50到1.0和0.5到0.0)作为列表。为了解释原因,我希望将0-735之间的整数作为键,将小数作为值。通过阅读关于SO的许多其他帖子,我想出了以下与创建我想要的列表不相近的内容。它所做的只是显示表格中的文本,如此处所示http://i1285.photobucket.com/albums/a592/TheNexulo/output_zps20c5afb8.pngfrombs4importBeautifulSoupsoup=Beautifu

python - 如何删除 BeautifulSoup 中所有不同的脚本标签?

我从Web链接中抓取了一个表,并想通过删除所有脚本标签来重建一个表。这是源代码。response=requests.get(url)soup=BeautifulSoup(response.text)table=soup.find('table')forrowintable.find_all('tr'):forcolinrow.find_all('td'):#removealldifferentscripttags#col.replace_with('')#col.decompose()#col.extract()col=col.contents如何删除所有不同的脚本标签?以follow

html - Python3.5 BeautifulSoup4 从div中的 'p'获取文本

我正在尝试从div类“caselawcontentsearchable-content”中提取所有文本。此代码仅打印HTML而没有来自网页的文本。我缺少什么来获取文本?以下链接位于“finteredcasesdoc.text”文件中:http://caselaw.findlaw.com/mo-court-of-appeals/1021163.htmlimportrequestsfrombs4importBeautifulSoupwithopen('filteredcasesdoc.txt','r')asopenfile1:forlineinopenfile1:rulingpage=re

Python、BeautifulSoup - <div> 文本和 <img> 属性顺序正确

我有一小段HTML,我想使用BeautifulSoup运行它。我已经掌握了基本导航,但这个让我难住了。这是一段HTML示例(完全是虚构的):Buyingthisitemwillcostyousilvercreditsandgoldencredits使用img标签的“alt”属性,我希望看到以下结果:购买此元素将花费您1个银币和1个金币我不知道如何按顺序循环div标签。我可以执行以下操作来提取div标签中包含的所有文本html=BeautifulSoup(string)printhtml.get_text()获取div标签中包含的所有文本,但这会给我这样的结果:购买此元素将花费您银币和金

python - BeautifulSoup 给了我 unicode+html 符号,而不是直接的 unicode。这是错误还是误解?

我正在使用BeautifulSoup抓取网站。该网站的页面在我的浏览器中呈现良好:OxfamInternational’sreportentitled“Offside!http://www.coopamerica.org/programs/responsibleshopper/company.cfm?id=271特别是,单引号和双引号看起来没问题。它们看起来是html符号而不是ascii,尽管奇怪的是当我在FF3中查看源代码时它们看起来是正常的ascii。不幸的是,当我抓取时,我得到了这样的东西u'OxfamInternational\xe2€™sreportentitled\xe2€

python - 如何在 Python 中使用 Beautifulsoup 查找 div 内的所有 anchor 标签

这就是我正在解析的HTML的样子。它全部在一个表中并重复多次,我只想要div内的href属性值,其属性为class="Special_Div_Name"。然后所有这些div都在表格行内,并且有很多行。text我想要的只是以“.mp3”结尾的href属性值,它们位于具有属性class="Special_Div_Name"的div中。到目前为止,我能够想出这段代码:download=soup.find_all('a',href=re.compile('.mp3'))fortextindownload:hrefText=(text['href'])printhrefText这段代码目前打印出

python - 使用 beautifulsoup 获取 div 中的 child 文本

您好,我想了解GooglePlay商店中某个应用的说明。(https://play.google.com/store/apps/details?id=com.wetter.androidclient&hl=de)importurllib2frombs4importBeautifulSoupsoup=BeautifulSoup(urllib2.urlopen("https://play.google.com/store/apps/details?id=com.wetter.androidclient&hl=de"))result=soup.find_all("div",{"class":

python - 从 beautifulsoup 元素中提取原始字符串位置

当使用beautifulsoup解析长而复杂的html文档时,有时获取原始字符串中匹配元素的确切位置很有用。我不能简单地搜索字符串,因为可能有多个匹配元素,我会失去bs4解析DOM的能力。鉴于这个最小的工作示例:importbs4html="HelloWorld"soup=bs4.BeautifulSoup(html,'lxml')#Returns22printhtml.find("World")#Howtogetthistoreturn22?printsoup.find("i",text="World")如何让bs4提取的元素返回22? 最佳答案