我今天在使用BeautifulSoup时遇到了一个非常奇怪的行为。让我们看一个非常简单的html片段:lele我正在尝试获取的内容用BeautifulSoup标记。使用find时一切正常方法:frombs4importBeautifulSouphtml="lele"soup=BeautifulSoup(html,'lxml')#Theparserusedheredoesnotmattersoup.find('ix:nonfraction')>>>lele但是,当尝试使用find_all方法,我希望返回一个包含该单个元素的列表,但事实并非如此!soup.find_all('ix:nonf
我有一个具有以下性质的复杂htmlDOM树:.........Thisishell!我有一些逻辑可以找出最里面的表。但是在找到它之后,我需要获取下一个兄弟元素(h2)。无论如何你可以做到这一点? 最佳答案 如果tag是最内层的表,那么tag.findNextSibling('h2')会是Thisishell!要真正获得下一个sibling,您可以使用tag.nextSibling,在本例中,它是u'\n'。如果你想要下一个不是NavigableString的兄弟(比如u'\n'),那么你可以使用tag.findNextSibling
YCombinator足以提供RSSfeed和一个bigRSSfeed包含HackerNews上的热门项目.我正在尝试编写一个python脚本来访问RSS提要文档,然后使用BeautifulSoup解析出某些信息。但是,当BeautifulSoup尝试获取每个项目的内容时,我遇到了一些奇怪的行为。以下是RSS提要的几行样例:HackerNewshttp://news.ycombinator.com/Linksfortheintellectuallycurious,rankedbyreaders.EFFPatentProjectGetsHalf-Million-DollarBoostfr
此问题特定于BeautifulSoup4,这使得它与前面的问题不同:WhyisBeautifulSoupmodifyingmyself-closingelements?selfClosingTagsinBeautifulSoup既然BeautifulStoneSoup不见了(以前的xml解析器),我怎样才能让bs4尊重一个新的自关闭标签?例如:importbs4S=''''''soup=bs4.BeautifulSoup(S,selfClosingTags=['bar'])printsoup.prettify()不会自动关闭bar标签,但会给出提示。bs4指的这个树构建器是什么以及我如
我需要这种格式的文本文件(output.txt)中的表中的数据:数据1;数据2;数据3;数据4;.....Celkovapodlahovaplochabytu;33m;Vytah;Ano;Nadzemnepodlazie;Prizemnepodlazie;......;Formavlastnictva;Osobne全部在“一行”中,分隔符为“;”(稍后导出为csv文件)。我是初学者..帮助,谢谢。fromBeautifulSoupimportBeautifulSoupimporturllib2importcodecsresponse=urllib2.urlopen('http://ww
我有一个页面,其源代码中包含一些表格:XXX:20XXX:XXXXX:XXXXXX:XXXXXX:XXXXXX:XXXXXX:XXXXXX:XXXXXX:XXXXXX:XXXXXX:XXXXX:XXXPHONE:518878943我想从这个页面得到一个电话号码,来自第二个表:PHONE:518878943但是,我的代码:page_src="""XXX:20XXX:XXXXX:XXXXXX:XXXXXX:XXXXXX:XXXXXX:XXXXXX:XXXXXX:XXXXXX:XXXXXX:XXXXX:XXXPHONE:518878943"""soup=BeautifulSoup(page_
所以lxml有个很手的特性:make_links_absolute:doc=lxml.html.fromstring(some_html_page)doc.make_links_absolute(url_for_some_html_page)并且文档中的所有链接现在都是绝对的。BeautifulSoup中是否有一个简单的等价物,或者我只需要通过urlparse传递它并对其进行规范化:soup=BeautifulSoup(some_html_page)fortaginsoup.findAll('a',href=True):url_data=urlparse(tag['href'])ifu
我正在使用BeautifulSoup从IMDb获取HTML页面,我想从页面中提取海报图像。我已经根据其中一个属性获得了图像,但我不知道如何提取其中的数据。这是我的代码:url='http://www.imdb.com/title/tt%s/'%(id)soup=BeautifulSoup(urllib2.urlopen(url).read())print("beforeFOR")forsrcinsoup.find(itemprop="image"):print("insideFOR")print(link.get('src')) 最佳答案
我有一些要从中提取文本的html。这是html的示例:TEXTIWANT–现在,显然有很多本文档中的标签。所以,find('p')不是获取我想要提取的文本的好方法。然而,那个标签是文档中唯一的标签。所以,我想我可以找到然后去找parent。我试过:up=soup.select('pi').parent和up=soup.select('i')print(up.parent)我已经用.parents试过了,我试过了find_all('i'),find('i')...但我总是得到:'list'objecthasnoattribute"parent"我做错了什么?
所以我正在慢慢学习Python,并且正在尝试制作一个简单的函数来从在线游戏的高分页面中提取数据。这是我重写到一个函数中的其他人的代码(这可能是问题所在),但我收到此错误。这是代码:>>>fromurllib2importurlopen>>>fromBeautifulSoupimportBeautifulSoup>>>defcreate(el):source=urlopen(el).read()soup=BeautifulSoup(source)get_table=soup.find('table',{'id':'mini_player'})get_rows=get_table.find