如何使用 ChatGPT 完全自动化网页抓取

pxr007 2023-06-05 原文

Web 抓取是使用脚本从网站自动提取数据的过程。ChatGPT 能够为您生成网络抓取脚本代码。让我们看看这是如何工作的……

IMDb 是一个提供有关电影、电视节目和其他娱乐形式的信息的网站，包括评分最高的电影图表，该网站https://www.imdb.com/chart/top/?ref_=nv_mv_250显示 IMDb 上评分最高的 250 部电影的列表，包括它们的标题、演员、导演、和 IMDb 评级：

假设我们想使用网络抓取通过 Python 及其网络抓取库 BeautifulSoup 从该网站提取电影信息。也许 ChapGPT 能够帮助我们编写所需的代码。WINDOWS 10 或 11 中的计算器键盘快捷键让我们简单地要求 ChatGPT 通过输入以下请求来执行此任务：

Web scrape https://www.imdb.com/chart/top/?ref_=nv_mv_250 with Python and BeautifulSoup

然后 ChatGPT 以具体的实现步骤和相应的 Python 源代码作为响应，如下面的屏幕截图所示：

好的，这已经是一个很好的结果，可以帮助我们理解源代码是如何执行其任务的。然而，我们希望只在一个文件中实现，这样我们只需要复制和粘贴它。让我们再次请求 ChatGPT 在一个文件中提供 Python 网页抓取脚本：

Please provide the code in one file.

Great ChatGPT 马上回复完整的源代码：

在以下清单中，您可以看到由 ChatGPT 生成的完整 Python 代码：

import requests
from bs4 import BeautifulSoup
import pandas as pd

# Retrieve the HTML content of the website
url = 'https://www.imdb.com/chart/top/?ref_=nv_mv_250'
response = requests.get(url)

# Parse the HTML content
soup = BeautifulSoup(response.text, 'html.parser')

# Find all movie elements
movies = soup.find_all('td', class_='titleColumn')

# Extract the desired information
data = []
for movie in movies:
    title = movie.find('a').text
    year = movie.find('span', class_='secondaryInfo').text
    data.append({'title': title, 'year': year})

# Create a dataframe and save it to a csv
df = pd.DataFrame(data)
df.to_csv('imdb_top_movies.csv', index=False)

让我们试试代码是否按预期工作。因此我们首先需要创建一个新文件：

$ mkdir chatgpt-web-scrape
$ cd chatgpt-web-scrape
$ touch webscrape.py

然后我们可以将代码复制并粘贴到 webscrape.py 中：

让我们通过在命令行中输入以下命令来启动 python 脚本：

$ python webscrape.py

该脚本正在运行，几秒钟后您会注意到已创建一个新文件 imdb_top_movies.cvs，其中包含提取的 CSV 格式的电影信息。

ChatGPT 已经生成了一个开箱即用的网络抓取脚本。无需手动调整代码。这是一个很好的结果。

在我们对 ChatGPT 的原始请求中，我们没有指定应从网站中提取哪些电影信息。ChatGPT 决定提取电影名称和出版年份。假设我们还想包括评级。在 ChatGPT 中输入以下内容：

Also retrieve the IMDb rating for each film

ChatGPT 为您提供了详细的说明和代码片段，用于更改现有代码以包含和提取评级信息：

我们现在可以再次请求 ChatGPT 将此更改合并到脚本中：

Please give me the full code in one with, with the try-except block

然后再次生成完整的 Python 脚本，包括从网站提取附加信息的更改：

结论

本教程的示例表明，ChatGPT 在生成用于网络抓取的脚本时非常有帮助。事实上，我们只需将简单的要求输入到 ChatGPT 中，结果我们收到了一个 Python 脚本，该脚本无需任何调整即可执行任务。这使网络抓取变得更加容易，并让您立即开始。

有关如何使用 ChatGPT 完全自动化网页抓取的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 在 Ruby 中使用匿名模块 - 2
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外，还有什么方法可以访问C和m中的其他内容？我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)？如何在使用完匿名模块后将其删除，使其定义的常量不再存在？最佳答案三个答案:是的，使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
ruby - 使用 ruby 和 savon 的 SOAP 服务 - 2
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封，在我看来soap请求没有正确的命名空间。任何人都可以建议我
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2
给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息？最佳答案在Rails3中，update_all不返回任何有意义的信息，除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t

如何使用 ChatGPT 完全自动化网页抓取

结论

有关如何使用 ChatGPT 完全自动化网页抓取的更多相关文章

随机推荐