javascript - 用于网页抓取的 Selenium 与 BeautifulSoup

coder 2023-05-23 原文

我正在使用 Python 从网站上抓取内容。首先，我在 Python 上使用了 BeautifulSoup 和 Mechanize，但我看到该网站有一个通过 JavaScript 创建内容的按钮，所以我决定使用 Selenium。

鉴于我可以使用 Selenium 和 driver.find_element_by_xpath 等方法找到元素并获取它们的内容，当我可以使用 Selenium 时，有什么理由使用 BeautifulSoup一切？

在这种特殊情况下，我需要使用 Selenium 来单击 JavaScript 按钮，那么使用 Selenium 进行解析更好还是应该同时使用 Selenium 和 Beautiful Soup？

最佳答案

在直接回答您的问题之前，值得先说一下:如果您需要做的只是从静态 HTML 页面中提取内容，您可能应该使用带有 Requests 的 HTTP 库(如 urllib.request 或内置的 lxml )或 BeautifulSoup ，而不是 Selenium (尽管 Selenium 可能也足够了)。不用 Selenium 的好处:

运行脚本的带宽和时间。使用 Selenium 意味着获取在浏览器中访问页面时通常会获取的所有资源 - 样式表、脚本、图像等。这可能是不必要的。
稳定性和易于错误恢复。根据我的经验，Selenium 可能有点脆弱——即使是使用 PhantomJS——创建架构来杀死挂起的 Selenium 实例并创建一个新实例比在使用 时设置简单的异常重试逻辑更令人恼火请求。
可能，CPU 和内存使用情况 - 根据您要抓取的站点以及您尝试并行运行的蜘蛛线程的数量，可以想象 DOM 布局逻辑或 JavaScript 执行可能会变得非常昂贵。

请注意，需要 cookie 才能运行的网站并不是破坏 Selenium 的理由 - 您可以轻松创建一个 URL 打开函数，使用 cookielib/cookiejar 神奇地设置和发送带有 HTTP 请求的 cookie。

好的，那您为什么要考虑使用 Selenium？几乎完全可以处理您要抓取的内容通过 JavaScript 添加到页面的情况，而不是烘焙到 HTML 中。即使这样，您也可以在不破坏重型机器的情况下获得所需的数据。通常适用以下场景之一:

与页面一起提供的 JavaScript 已经将内容融入其中。 JavaScript 只是用来进行模板化或其他将内容放入页面的 DOM 操作。在这种情况下，您可能想看看是否有一种简单的方法可以使用正则表达式直接从 JavaScript 中提取您感兴趣的内容。
JavaScript 正在使用 Web API 来加载内容。在这种情况下，请考虑您是否可以识别相关的 API URL 并自己点击它们；这可能比实际运行 JavaScript 和从网页上抓取内容更简单、更直接。

如果您确实确定您的情况值得使用 Selenium，请在 headless 模式下使用它，该模式(至少)受 Firefox 和 Chrome 驱动程序支持。 Web 爬虫通常不需要实际以图形方式呈现页面，或使用任何特定于浏览器的怪癖或功能，因此 headless 浏览器 - 具有较低的 CPU 和内存成本以及较少的崩溃或挂起的移动部件 - 是理想的。

关于javascript - 用于网页抓取的 Selenium 与 BeautifulSoup，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17436014/

有关javascript - 用于网页抓取的 Selenium 与 BeautifulSoup的更多相关文章

ruby-on-rails - Rails 常用字符串(用于通知和错误信息等) - 2
大约一年前，我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞，我可以在一个地方轻松完成，而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje
Ruby Sinatra 配置用于生产和开发 - 2
我已经在Sinatra上创建了应用程序，它代表了一个简单的API。我想在生产和开发上进行部署。我想在部署时选择，是开发还是生产，一些方法的逻辑应该改变，这取决于部署类型。是否有任何想法，如何完成以及解决此问题的一些示例。例子:我有代码get'/api/test'doreturn"Itisdev"end但是在部署到生产环境之后我想在运行/api/test之后看到ItisPROD如何实现？最佳答案根据SinatraDocumentation:EnvironmentscanbesetthroughtheRACK_ENVenvironm
ruby - inverse_of 是否适用于 has_many？ - 2
当我使用has_one时，它工作得很好，但在has_many上却不行。在这里您可以看到object_id不同，因为它运行了另一个SQL来再次获取它。ruby-1.9.2-p290:001>e=Employee.create(name:'rafael',active:false)ruby-1.9.2-p290:002>b=Badge.create(number:1,employee:e)ruby-1.9.2-p290:003>a=Address.create(street:"123MarketSt",city:"SanDiego",employee:e)ruby-1.9.2-p290
「Python｜Selenium｜场景案例」如何定位iframe中的元素？ - 2
本文主要介绍在使用Selenium进行自动化测试或者任务时，对于使用了iframe的页面，如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候，可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签，如果直接查找是无法找到的，会抛出没有找到元素的异常。比如近在咫尺的例子就是，CSDN的登录窗体就是使用的iframe，大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素，会抛出NoSuchElementException异常。解决
ruby - 如何使用 Selenium Webdriver 根据 div 的内容执行操作？ - 2
我有一个使用SeleniumWebdriver和Nokogiri的Ruby应用程序。我想选择一个类，然后对于那个类对应的每个div，我想根据div的内容执行一个Action。例如，我正在解析以下页面:https://www.google.com/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=puppies这是一个搜索结果页面，我正在寻找描述中包含“Adoption”一词的第一个结果。因此机器人应该寻找带有className:"result"的div，对于每个检查它的.descriptiondiv是否包含单词“adoption
ruby - "undefined method"用于 rails 模型 - 2
我正在使用带有Rails的Devise，我想添加一个方法“getAllComments”，所以我这样写:classUser在我的Controller中:defdashboard@user=current_user@comments=@user.getAllComments();end当我访问我的url时，我得到了undefinedmethod`getAllComments'for#我做错了什么？谢谢最佳答案因为getAllComments是一个类方法，而您正试图将其作为实例方法访问。您要么需要访问它:User.getAllCom
ruby - 我需要从 facebook 游戏中抓取数据——使用 ruby - 2
修改(澄清问题)我已经花了几天时间试图弄清楚如何从Facebook游戏中抓取特定信息；但是，我遇到了一堵又一堵砖墙。据我所知，主要问题如下。我可以使用Chrome的检查元素工具手动查找我需要的html-它似乎位于iframe中。但是，当我尝试抓取该iframe时，它是空的(属性除外):如果我使用浏览器的“查看页面源代码”工具，这与我看到的输出相同。我不明白为什么我看不到iframe中的数据。答案不是它是由AJAX之后添加的。(我知道这既是因为“查看页面源代码”可以读取Ajax添加的数据，也是因为我有b/c我一直等到我可以看到数据页面之后才抓取它，但它仍然不存在)。发生这种情况是因为
ruby-on-rails - 使用 javascript 更改数据方法不会更改 ajax 调用用户的什么方法？ - 2
我遇到了一个非常奇怪的问题，我很难解决。在我看来，我有一个与data-remote="true"和data-method="delete"的链接。当我单击该链接时，我可以看到对我的Rails服务器的DELETE请求。返回的JS代码会更改此链接的属性，其中包括href和data-method。再次单击此链接后，我的服务器收到了对新href的请求，但使用的是旧的data-method，即使我已将其从DELETE到POST(它仍然发送一个DELETE请求)。但是，如果我刷新页面，HTML与"new"HTML相同(随返回的JS发生变化)，但它实际上发送了正确的请求类型。这就是这个问题令我困惑的
Ruby on Rails regexp equals-tilde 与 array include 用于检查选项列表 - 2
我正在使用Rails3.2.3和Ruby1.9.3p0。我发现我经常需要确定某个字符串是否出现在选项列表中。看来我可以使用Ruby数组.includemethod:或正则表达式equals-tildematchshorthand用竖线分隔选项:就性能而言，一个比另一个好吗？还有更好的方法吗？最佳答案总结:Array#include?包含String元素，在接受和拒绝输入时均胜出，对于您的示例只有三个可接受的值。对于要检查的更大的集合，看起来Set#include?和String元素可能会获胜。如何测试我们应该根据经验对此进行测试
RUBY - 网页抓取 - (OpenURI::HTTPError) - 2
我正在尝试用ruby编写一个简单的网络抓取代码。它一直工作到第29个url，然后我收到此错误消息:C:/Ruby193/lib/ruby/1.9.1/open-uri.rb:346:in`open_http':500InternalServerError(OpenURI::HTTPError)fromC:/Ruby193/lib/ruby/1.9.1/open-uri.rb:775:in`buffer_open'fromC:/Ruby193/lib/ruby/1.9.1/open-uri.rb:203:in`blockinopen_loop'fromC:/Ruby193/lib/r

javascript - 用于网页抓取的 Selenium 与 BeautifulSoup

有关javascript - 用于网页抓取的 Selenium 与 BeautifulSoup的更多相关文章

随机推荐