多线程爬取wallhaven

lengyingmofeng 2023-04-19 原文

前言

最近整理自己的项目时，发现之前自己写的爬取wallhaven网站顿时有来的兴趣决定再写一遍来回顾自己以前学的知识
网站地址："https://wallhaven.cc/"

1. url参数结构

从url地址我们发现为"https://wallhaven.cc/search?categories=111&purity=110&sorting=date_added&order=desc&page=2",这段url里面代用几个参数分别为，categories，purit，sorting。而这几个参数分别对应界面的这几个按钮

2. 查看网页结构

按f12键查找到要爬取的图片目录

通过查看代码发现该图片只是一张预览图片，分辨率仅为300*200，明显不符合要求。
观察下方a标签

发现这个class为preview的标签中存在个href地址链接到该高清图片的正确地址，点击该地址跳转

通过查看代码发现这才是我们需要的图片，找到了我们要的图片链接，在img标签中。

通过以上观察我们可以知道，我们的代码编写思路

获取到这一页所有图片的url地址
通过解析获取到详情页网页的图片
请求到详情页网页图片进行下载

3. 开始爬取图片

3.1 初始化

import requests
url = "https://wallhaven.cc/search?categories=011&purity=010&sorting=date_added&order=desc&page=2"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56',
}

class Spider:
	# 初始化数据
	def __init__(self, url, header, cookie):
		self.user_url = url
		self.header = header
		self.img_list_url = [] # 存放一页的所有图片地址
		self.num = 0  # 计数爬取了多少张图片

3.2 获取到这一页所有图片的url地址

我们在Spider类中定义一个res方法来爬取这一页的所有url地址，并且利用列表推导式将所有的url地址存放到list_img列表中以便我们后续使用

# 获取某一页要下载的图片所有链接
def res(self):
	response = requests.get(self.user_url, headers=self.header).text
	soup = BeautifulSoup(response, "html.parser")
	img_href = soup.select(".thumb-listing-page > ul > li  a[href]")
	list_img = [i.get("href") for i in img_href]  # 所有的图片的href
	print(list_img)
	print("一共", len(list_img), "图片")
	return list_img

3.3 通过解析获取到详情页网页的图片

通过res方法我们得到了一页的所有图片链接，这时我们获取详情页的图片地址并把它存放到img_list_url列表中以便我们后续开启多进程进行下载。但是我们这些书写会出现拿不到详细页的图片地址从而导致下标越界从而报错，所以可以优化一下代码

# 获取详情页图片地址
def detail_page(self, list_img):
	# 遍历获取详情页图片地址
	for item in list_img:
		detail_page = requests.get(item, headers=self.header, cookies=self.cookie).text
		soup = BeautifulSoup(detail_page, "html.parser")
		img_url = soup.select("#showcase > div.scrollbox > img[src]")[0]["src"]
		self.img_list_url.append(img_url)
		print(img_url, "添加成功")
		self.error_img_url(item)
		return self.img_list_url

可以写出这样

# 获取详情页图片地址
def detail_page(self, list_img):
# 遍历获取详情页图片地址
for item in list_img:
	detail_page = requests.get(item, headers=self.header, cookies=self.cookie).text
	soup = BeautifulSoup(detail_page, "html.parser")
	try:  # 访问过快会爬取不到详情页图片地址，则出现一个空列表从而导致下标越界
		img_url = soup.select("#showcase > div.scrollbox > img[src]")[0]["src"]
		self.img_list_url.append(img_url)
		print(img_url, "添加成功")
	except IndexError:  # 出现下标越界调用error_img_url方法
		self.error_img_url(item)
		return self.img_list_url

# 处理获取失败的图片地址
def error_img_url(self, url):
	print(url, "没有获取到现在重新获取")
	# 休眠2秒重新发送请求
	time.sleep(2)
	detail_page = requests.get(url, headers=self.header, cookies=self.cookie).text
	soup = BeautifulSoup(detail_page, "html.parser")
	try:
		img_url = soup.select("#showcase > div.scrollbox > img[src]")[0]["src"]
		self.img_list_url.append(img_url)
		print(img_url, "获取成功")
	except IndexError:  # 如果还没有获取到图片地址那么递归调用
		self.error_img_url(url)

3.4 请求到详情页网页图片进行下载

通过前面我们已经获取下载图片地址，我们发现地址为"https://w.wallhaven.cc/full/zy/wallhaven-zyg5kw.jpg "完全可以使用split（'/'）进行切片获取最后一段用来命名图片名称

# 图片下载
def download_images(self, img_url):
	if img_url is not None:
		img_name = img_url.split("/")[-1]  # 图片名称
		img = requests.get(img_url, headers=self.header).content
		with open(img_path + "/" + img_name, "wb") as fp:
			fp.write(img)
			print(img_name, "download over~")
			self.num += 1

3.5 main方法

这时候我们编写主函数就可以下载了

if __name__ == '__main__':
    img_path = "./wall"
    if not os.path.exists(img_path):
        os.mkdir(img_path)
    # 开始爬取
    start = time.time()
    spider = Spider(url, headers, cookie)
    list_img = spider.res()

    img_list_url = spider.detail_page(list_img)

    # 开启5个进程下载图片
    pool = Pool(5)
    pool.map(spider.download_images, img_list_url)

    end = time.time()
    print("下载图片数量：", Spider.images_count)
    print(end - start)

4. 完整代码

import os
import time
from multiprocessing.dummy import Pool
import requests
from bs4 import BeautifulSoup

url = "https://wallhaven.cc/search?categories=011&purity=010&sorting=date_added&order=desc&page=2"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56',
}


class Spider:
    # 初始化数据
    def __init__(self, url, header, cookie):
        self.user_url = url
        self.header = header
        self.cookie = cookie
        self.img_list_url = []  # 存放一页的所有图片地址
        self.num = 0  # 计数爬取了多少张图片

    # 获取某一页要下载的图片所有链接
    def res(self):
        response = requests.get(self.user_url, headers=self.header).text
        soup = BeautifulSoup(response, "html.parser")
        img_href = soup.select(".thumb-listing-page > ul > li  a[href]")
        list_img = [i.get("href") for i in img_href]  # 所有的图片的href
        print(list_img)
        print("一共", len(list_img), "图片")
        return list_img

    # 获取详情页图片地址
    def detail_page(self, list_img):
        # 遍历获取详情页图片地址
        for item in list_img:
            detail_page = requests.get(item, headers=self.header).text
            soup = BeautifulSoup(detail_page, "html.parser")
            try:  # 访问过快会爬取不到详情页图片地址，则出现一个空列表从而导致下标越界
                img_url = soup.select("#showcase > div.scrollbox > img[src]")[0]["src"]
                self.img_list_url.append(img_url)
                print(img_url, "添加成功")
            except IndexError:  # 出现下标越界调用error_img_url方法
                self.error_img_url(item)
        return self.img_list_url

    # 处理获取失败的图片地址
    def error_img_url(self, url):
        print(url, "没有获取到现在重新获取")
        # 休眠2秒重新发送请求
        time.sleep(2)
        detail_page = requests.get(url, headers=self.header).text
        soup = BeautifulSoup(detail_page, "html.parser")
        try:
            img_url = soup.select("#showcase > div.scrollbox > img[src]")[0]["src"]
            self.img_list_url.append(img_url)
            print(img_url, "获取成功")
        except IndexError:  # 如果还没有获取到图片地址那么递归调用
            self.error_img_url(url)

    # 图片下载
    def download_images(self, img_url):
        if img_url is not None:
            img_name = img_url.split("/")[-1]  # 图片名字
            img = requests.get(img_url, headers=self.header).content
            with open(img_path + "/" + img_name, "wb") as fp:
                fp.write(img)
            print(img_name, "download over~")
            self.num += 1

    def images_count(self):
        print(self.num)


if __name__ == '__main__':
    img_path = "./wall"
    if not os.path.exists(img_path):
        os.mkdir(img_path)
    # 开始爬取
    start = time.time()
    spider = Spider(url, headers, cookie)
    list_img = spider.res()

    img_list_url = spider.detail_page(list_img)

    # 开启5个进程下载图片
    pool = Pool(5)
    pool.map(spider.download_images, img_list_url)

    end = time.time()
    print("下载图片数量：", Spider.images_count)
    print(end - start)

5. 添加Cookie

如果有wallhaven用户的想爬取用户能爬取的图片需要添加Cookie

# 用户cookie
cookie = {
    "_pk_id.1.01b8": "xxxx",
    "_pk_ses.1.01b8": "xxxx",
    "remember_web_59ba36addc2b2f9401580f014c7f58ea4e30989d": "xxx",
    "XSRF-TOKEN": "xxxx",
    "wallhaven_session": "xxxx"
}

请求的时候带上cookie即可

多线 wallhaven img url self Python

有关多线程爬取wallhaven的更多相关文章

ruby - RuntimeError(自动加载常量 Apps 多线程时检测到循环依赖 - 2
我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样？我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用，需要1秒才能返回，我有100,000多个页面要访问，所以我试图运行多个线程来解决这个问题。有更好的方法吗？classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("
ruby - 如何让Ruby捕获线程中的语法错误 - 2
我正在尝试使用ruby编写一个双线程客户端，一个线程从套接字读取数据并将其打印出来，另一个线程读取本地数据并将其发送到远程服务器。我发现的问题是Ruby似乎无法捕获线程内的错误，这是一个示例:#!/usr/bin/rubyThread.new{loop{$stdout.puts"hi"abc.putsefsleep1}}loop{sleep1}显然，如果我在线程外键入abc.putsef，代码将永远不会运行，因为Ruby将报告“undefinedvariableabc”。但是，如果它在一个线程内，则没有错误报告。我的问题是，如何让Ruby捕获这样的错误？或者至少，报告线程中的错误？
ruby - 如何在 ruby 中运行后台线程？ - 2
我是ruby的新手，我认为重新构建一个我用C#编写的简单聊天程序是个好主意。我正在使用Ruby2.0.0MRI(Matz的Ruby实现)。问题是我想在服务器运行时为简单的服务器命令提供I/O。这是从示例中获取的服务器。我添加了使用gets()获取输入的命令方法。我希望此方法在后台作为线程运行，但该线程正在阻塞另一个线程。require'socket'#Getsocketsfromstdlibserver=TCPServer.open(2000)#Sockettolistenonport2000defcommandsx=1whilex==1exitProgram=gets.chomp
ruby - Rails 开发服务器、PDFKit 和多线程 - 2
我有一个使用PDFKit呈现网页的pdf版本的Rails应用程序。我使用Thin作为开发服务器。问题是当我处于开发模式时。当我使用“bundleexecrailss”启动我的服务器并尝试呈现任何PDF时，整个过程会陷入僵局，因为当您呈现PDF时，会向服务器请求一些额外的资源，如图像和css，看起来只有一个线程.如何配置Rails开发服务器以运行多个工作线程？非常感谢。最佳答案我找到的最简单的解决方案是unicorn.geminstallunicorn创建一个unicorn.conf:worker_processes3然后使用它:
ruby - Ruby 1.9.1 中的 native 线程，对我有什么好处？ - 2
所以，Ruby1.9.1现在是declaredstable.Rails应该与它一起工作，并且正在慢慢地将gem移植到它。它具有native线程和全局解释器锁(GIL)。自从GIL到位后，原生线程是否比1.9.1中的绿色线程有任何优势？最佳答案 1.9中的线程是原生的，但它们被“放慢了速度”，一次只允许一个线程运行。这是因为如果线程真的并行运行，它会混淆现有代码。优点:IO现在在线程中是异步的。如果一个线程阻塞在IO上，那么另一个线程将继续执行直到IO完成。C扩展可以使用真正的线程。缺点:任何非线程安全的C扩展都可能存在使用Thre
ruby - 使写入文件线程安全 - 2
我在一个ruby文件中有一个函数可以像这样写入一个文件File.open("myfile",'a'){|f|f.puts("#{sometext}")}这个函数在不同的线程中被调用，使得像上面这样的文件写入不是线程安全的。有谁知道如何以最简单的方式使这个文件写入线程安全？更多信息:如果重要的话，我正在使用rspec框架。最佳答案您可以通过File#flock给锁File.open("myfile",'a'){|f|f.flock(File::LOCK_EX)f.puts("#{sometext}")}
Ruby 线程与 Watir - 2
我编写了几个类来控制我想如何处理多个网站，两者都使用类似的方法(即登录、刷新)。每个类都打开自己的WATIR浏览器实例。classSite1definitialize@ie=Watir::Browser.newenddeflogin@ie.goto"www.blah.com"endend无线程的main中的代码示例如下require'watir'require_relative'site1'agents=[]agents这工作正常，但在当前代理完成登录之前不会移动到下一个代理。我想合并多线程来处理这个问题，但似乎无法让它工作。require'watir'require_relative
ruby - 在多个线程中引用类方法会导致自动加载循环依赖崩溃 - 2
代码:threads=[]Thread.abort_on_exception=truebegin#throwexceptionsinthreadssowecanseethemthreadseputs"EXCEPTION:#{e.inspect}"puts"MESSAGE:#{e.message}"end崩溃:.rvm/gems/ruby-2.1.3@req/gems/activesupport-4.1.5/lib/active_support/dependencies.rb:478:inload_missing_constant':自动加载常量MyClass时检测到循环依赖稍加研究后，
Ruby 多线程/多处理读物 - 2
任何人都可以推荐任何详细介绍Ruby多线程/多处理的复杂性的好的多线程/处理书籍/网站吗？我尝试使用ruby线程，基本上在1.9vm上的无死锁代码中它在jruby中遇到了死锁。是的，我意识到差异很大(jruby没有GIL)，但我想知道是否有用于ruby中多线程编程的策略或类集，我只需要继续阅读。旁注:从java到ruby必须定义是否需要重新输入锁，这有点奇怪。最佳答案如果你使用Ruby1.9，你可以试试Fiber，它是Ruby中线程的一大改进http://ruby-doc.org/core-1.9/classes/F
ruby - 跨线程共享枚举器 - 2
我想从不同线程调用一个公共(public)枚举器。当我执行以下操作时，enum=(0..1000).to_enumt1=Thread.newdopenum.nextsleep(1)endt2=Thread.newdopenum.nextsleep(1)endt1.joint2.join它引发了一个错误:Fibercalledacrossthreads.当enum在从t1调用一次后从t2调用时。为什么Ruby设计为不允许跨线程调用枚举器(或纤程)，以及是否有其他方法可以提供类似的功能？我猜测枚举器/纤程上的操作的原子性在这里是相关的，但我不完全确定。如果这是问题所在，那么在使用时独占锁定