草庐IT

beautifulSoup

全部标签

python - 在 Python 的 span 标签中查找多个属性

我希望从网站上抓取两个值。它们存在于以下标签中:4.12.9我需要值spstarBig,spstarGryB。我使用的findAll表达式是-soup.findAll('span',{'class':['spstarGryB','spstarBig']}):代码没有任何错误地执行,但没有显示结果。 最佳答案 根据docs,假设BeautifulSoup4,用'spstarGryB'这样的字符串匹配多个CSS类是脆弱的,不应该这样做:soup.find_all('span',{'class':'spstarGryB'})#[2.9]s

python - BeautifulSoup - 获取无 HTML 内容的简单方法

我正在使用此代码查找页面中所有有趣的链接:soup.findAll('a',href=re.compile('^notizia.php\?idn=\d+'))而且它的工作做得很好。不幸的是,在a标签内有很多嵌套标签,如font、b和不同的东西......我想得到只有文本内容,没有任何其他html标记。链接示例:03-11-2009:  CCSIngegneriaElettronica-Sportellostudentiedorientamento当然它很丑(而且标记并不总是相同的!)而且我想得到:03-11-2009:CCSIngegneriaElettronica

python - 我在哪里可以找到一些 "hello world"- 简单的 Beautiful Soup 示例?

我想用BeautifulSoup做一个非常简单的替换。假设我想访问页面中的所有A标签并将“?foo”附加到它们的href。有人可以发布或链接到如何做这样简单的事情的例子吗? 最佳答案 fromBeautifulSoupimportBeautifulSoupsoup=BeautifulSoup('''TestingfooBar''')forlinkinsoup.findAll('a'):#findalllinkslink['href']=link['href']+'?foo'printsoup打印:TestingfooBardocum

python - lxml 和 libxml2 哪个更适合在 Python 中解析格式错误的 html?

对于格式错误的html,哪个更好更有用?我找不到如何使用libxml2。谢谢。 最佳答案 在libxml2page你可以看到这个注释:NotethatsomeofthePythonpuristdislikethedefaultsetofPythonbindings,ratherthancomplainingIsuggesttheyhavealookatlxmlthemorepythonicbindingsforlibxml2andlibxsltandcheckthemailing-list.并且在lxml将此页设为另一页:Thelx

python - 使用 BeautifulSoup 发布到页面以登录

我正在使用python和beautifulsoup(两者都是新手!),我想登录供应商网站。所以他们的形式看起来像(简化):有没有办法跟踪cookie? 最佳答案 多读书。了解urllib2这就是您用来执行POST登录的内容。如果你知道名字,你不需要BeautifulSoup。http://docs.python.org/library/urllib2.htmlBeautifulSoup是您用来解析结果页面的工具。登录后。在您发布真实请求之后。 关于python-使用BeautifulSo

javascript - 从 'onclick' 部分值中查找并单击一个项目

是否可以通过onclick元素的部分值通过selenium单击元素?一个页面有多个输入项,我只需要选择一个具有特定字符串的即可。例子是:如果您注意到最后,有“1居室豪华房”、“2居室豪华房”和“1居室总统房”。由于它是一个输入项,因此没有任何文本可供我过滤,但我只需要选择一个特定的项,例如2BedroomDeluxe。有什么我可以做的:buttons=driver.find_elements_by_name('booksubmit')forbuttoninbuttons:ifbutton........什么东西?我目前正在使用beautifulsoup4来解析页面上的html并检索与该

python - BeautifulSoup:剥离指定的属性,但保留标签及其内容

我正在尝试“defrontpagify”MSFrontPage生成的网站的html,我正在编写BeautifulSoup脚本来执行此操作。但是,我在尝试从包含它们的文档中的每个标记中删除特定属性(或列表属性)时遇到了困难。代码片段:REMOVE_ATTRIBUTES=['lang','language','onmouseover','onmouseout','script','style','font','dir','face','size','color','style','class','width','height','hspace','border','valign','ali

Python BeautifulSoup 提取特定的 URL

是否可以只获取特定的URL?喜欢:next...next...next...输出应该只是来自http://www.iwashere.com/的URL例如,输出URL:http://www.iwashere.com/washere.htmlhttp://www.iwashere.com/wasnot.html我是用字符串逻辑做的。BeautifulSoup有什么直接的方法吗? 最佳答案 您可以匹配多个方面,包括对属性值使用正则表达式:importresoup.find_all('a',href=re.compile('http://w

涉及带有属性的 HTML 标签的 Python 网络抓取

我正在尝试制作一个网络抓取工具,它将解析出版物的网页并提取作者。网页的骨架结构如下:####Iwantwhateverislocatedhere###到目前为止,我一直在尝试使用BeautifulSoup和lxml来完成这项任务,但我不确定如何处理这两个div标签和td标签,因为它们具有属性。除此之外,我不确定我是否应该更多地依赖BeautifulSoup或lxml或两者的组合。我该怎么办?目前,我的代码如下所示:importreimporturllib2,sysimportlxmlfromlxmlimportetreefromlxml.html.soupparserimportfro

python - BeautifulSoup 查找包含特定单词的链接

我有这个链接:SantaClara,California我如何使用BeautifulSoup来具体查找包含位置“位置”一词的链接? 最佳答案 您可以使用简单的"contains"CSSselector来完成:soup.select("a[href*=location]")或者,如果只需要匹配一个链接,使用select_one():soup.select_one("a[href*=location]")当然,还有许多其他方式-例如,您可以使用find_all()提供可以有regularexpression的href参数值或functi