我需要解析一个url以获取链接到详细信息页面的url列表。然后从该页面我需要从该页面获取所有详细信息。我需要这样做,因为详细页面url不会定期递增和更改,但事件列表页面保持不变。基本上:example.com/events/Event1Event2example.com/events/1...somedetailstuffIneedexample.com/events/2...somedetailstuffIneed 最佳答案 importurllib2fromBeautifulSoupimportBeautifulSouppage
如何找到textIamlookingfor在以下HTML中(用\n标记的换行符)?...\n"Sometext:"\n\nsomevalue\n\n"Fixedtext:"\n\ntextIamlookingfor\n\n"Someothertext:"\n\nsomeothervalue\n...下面的代码返回第一个找到的值,所以我需要过滤"Fixedtext:"不知何故。result=soup.find('td',{'class':'pos'}).find('strong').text更新:如果我使用以下代码:title=soup.find('td',text=re.compile
我试图用Python->BeautifulSoup:解析一个看起来像这样的网页我正在尝试提取突出显示的tddiv的内容。目前我可以通过alltd=soup.findAll('td')fortdinalltd:printtd但我试图缩小范围以搜索“tablebox”类中的td,它仍然可能返回30+,但比300+更易于管理。如何提取上图中突出显示的td的内容? 最佳答案 知道BeautifulSoup在一个元素中找到的任何元素仍然具有与该父元素相同的类型是很有用的——也就是说,可以调用各种方法。所以这是你的例子的一些工作代码:soup=
soup.find("tagName",{"id":"articlebody"})为什么这不返回...标签和介于两者之间的东西?它什么也不返回。我知道它的存在是因为我正从soup.prettify()soup.find("div",{"id":"articlebody"})也不行。(编辑:我发现BeautifulSoup没有正确解析我的页面,这可能意味着我尝试解析的页面在SGML或其他格式中的格式不正确) 最佳答案 您应该发布您的示例文档,因为代码可以正常工作:>>>importBeautifulSoup>>>soup=Beauti