草庐IT

python - 在 Scrapy 中以编程方式重置 TCP 连接

coder 2023-09-19 原文

我目前正在抓取一个网站,如果它在短时间内请求太多页面,就会禁止 IP。当发生这种情况时,它会在响应中给出一个 403 状态代码。如果 IP 地址不更新,爬虫将失败所有以下请求。

所以我添加了一个 HTTP 代理,它是一个托管数百个 IP 并为每个 TCP 连接随机分配一个的集线器。

>>> import requests
>>> proxies = {"https": "https://user:pass@proxyservice.com"}
>>> s = requests.Session()
>>> 
>>> print("\n persisted connection:")
>>> for i in range(3):
>>>     print(s.get("https://ifconfig.co", proxies=proxies).text)
>>>
>>> print("\n new connection every request:")
>>> for i in range(3):
>>>     print(requests.get("https://ifconfig.co", proxies=proxies).text)

persisted connection:
123.123.123.123
123.123.123.123
123.123.123.123

new connection every request:
123.111.111.111
123.222.222.222
123.110.110.110

我在我的项目中使用 Scrapy,它默认使用持久连接,这意味着它将为每个连接使用相同的代理 IP:

class TestSpider(scrapy.Spider):
    name = 'test'
    allowed_domains = ['ifconfig.co']
    custom_settings = {
        "CONCURRENT_REQUESTS": 2
    }

    def __init__(self):
        self.url = "https://ifconfig.co"
        self.headers = {"user-agent": "curl"}
        self.proxy = "https://user:pass@proxyservice.com"

    def start_requests(self):
        # We have 2 concurrent requests (persisted connections).
        yield Request(url=self.url, headers=self.headers, meta={"proxy": self.proxy}, dont_filter=True)
        yield Request(url=self.url, headers=self.headers, meta={"proxy": self.proxy}, dont_filter=True)

    def parse(self, response):
        self.logger.info(response.text)
        yield Request(url=self.url, headers=self.headers, meta={"proxy": self.proxy}, dont_filter=True)

这给了我们:

2019-06-27 12:13:21 [test] INFO: 181.xx.xx.197

2019-06-27 12:13:21 [test] INFO: 38.xx.xx.199

2019-06-27 12:13:21 [test] INFO: 181.xx.xx.197

2019-06-27 12:13:22 [test] INFO: 38.xx.xx.199

2019-06-27 12:13:22 [test] INFO: 181.xx.xx.197

2019-06-27 12:13:22 [test] INFO: 38.xx.xx.199

2019-06-27 12:13:22 [test] INFO: 181.xx.xx.197

2019-06-27 12:13:23 [test] INFO: 181.xx.xx.197

2019-06-27 12:13:23 [test] INFO: 38.xx.xx.199

2019-06-27 12:13:23 [test] INFO: 181.xx.xx.197

2019-06-27 12:13:24 [test] INFO: 38.xx.xx.199

如何重置与代理服务器的 TCP 连接,以便在响应给出 403 时获得新的 IP 地址?

最佳答案

事实证明,我正在使用的代理服务 ( https://luminati.io ) 支持通过在用户名字段中添加参数来强制更新 IP。

用户名- session -%rndint:pass@proxyservice.com

并通过以下方式更改 IP 区域: username-country-us:pass@proxyservice.com

关于python - 在 Scrapy 中以编程方式重置 TCP 连接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56783958/

有关python - 在 Scrapy 中以编程方式重置 TCP 连接的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. ruby - 如何以所有可能的方式将字符串拆分为长度最多为 3 的连续子字符串? - 2

    我试图获取一个长度在1到10之间的字符串,并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符,然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123

  3. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  4. ruby - 续集在添加关联时访问many_to_many连接表 - 2

    我正在使用Sequel构建一个愿望list系统。我有一个wishlists和itemstable和一个items_wishlists连接表(该名称是续集选择的名称)。items_wishlists表还有一个用于facebookid的额外列(因此我可以存储opengraph操作),这是一个NOTNULL列。我还有Wishlist和Item具有续集many_to_many关联的模型已建立。Wishlist类也有:selectmany_to_many关联的选项设置为select:[:items.*,:items_wishlists__facebook_action_id].有没有一种方法可以

  5. ruby - 无法在 60 秒内获得稳定的 Firefox 连接 (127.0.0.1 :7055) - 2

    我使用的是Firefox版本36.0.1和Selenium-Webdrivergem版本2.45.0。我能够创建Firefox实例,但无法使用脚本继续进行进一步的操作无法在60秒内获得稳定的Firefox连接(127.0.0.1:7055)错误。有人能帮帮我吗? 最佳答案 我遇到了同样的问题。降级到firefoxv33后一切正常。您可以找到旧版本here 关于ruby-无法在60秒内获得稳定的Firefox连接(127.0.0.1:7055),我们在StackOverflow上找到一个类

  6. ruby-on-rails - 正确的 Rails 2.1 做事方式 - 2

    question的一些答案关于redirect_to让我想到了其他一些问题。基本上,我正在使用Rails2.1编写博客应用程序。我一直在尝试自己完成大部分工作(因为我对Rails有所了解),但在需要时会引用Internet上的教程和引用资料。我设法让一个简单的博客正常运行,然后我尝试添加评论。靠我自己,我设法让它进入了可以从script/console添加评论的阶段,但我无法让表单正常工作。我遵循的其中一个教程建议在帖子Controller中创建一个“评论”操作,以添加评论。我的问题是:这是“标准”方式吗?我的另一个问题的答案之一似乎暗示应该有一个CommentsController参

  7. ruby - 寻找通过阅读代码确定编程语言的ruby gem? - 2

    几个月前,我读了一篇关于ruby​​gem的博客文章,它可以通过阅读代码本身来确定编程语言。对于我的生活,我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗? 最佳答案 是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem?,我们在StackOverflow上找到一个类似的问题:

  8. Python 相当于 Perl/Ruby ||= - 2

    这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。

  9. java - 什么相当于 ruby​​ 的 rack 或 python 的 Java wsgi? - 2

    什么是ruby​​的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

  10. 华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2

    华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o

随机推荐