我目前正在抓取一个网站,如果它在短时间内请求太多页面,就会禁止 IP。当发生这种情况时,它会在响应中给出一个 403 状态代码。如果 IP 地址不更新,爬虫将失败所有以下请求。
所以我添加了一个 HTTP 代理,它是一个托管数百个 IP 并为每个 TCP 连接随机分配一个的集线器。
>>> import requests
>>> proxies = {"https": "https://user:pass@proxyservice.com"}
>>> s = requests.Session()
>>>
>>> print("\n persisted connection:")
>>> for i in range(3):
>>> print(s.get("https://ifconfig.co", proxies=proxies).text)
>>>
>>> print("\n new connection every request:")
>>> for i in range(3):
>>> print(requests.get("https://ifconfig.co", proxies=proxies).text)
persisted connection:
123.123.123.123
123.123.123.123
123.123.123.123
new connection every request:
123.111.111.111
123.222.222.222
123.110.110.110
我在我的项目中使用 Scrapy,它默认使用持久连接,这意味着它将为每个连接使用相同的代理 IP:
class TestSpider(scrapy.Spider):
name = 'test'
allowed_domains = ['ifconfig.co']
custom_settings = {
"CONCURRENT_REQUESTS": 2
}
def __init__(self):
self.url = "https://ifconfig.co"
self.headers = {"user-agent": "curl"}
self.proxy = "https://user:pass@proxyservice.com"
def start_requests(self):
# We have 2 concurrent requests (persisted connections).
yield Request(url=self.url, headers=self.headers, meta={"proxy": self.proxy}, dont_filter=True)
yield Request(url=self.url, headers=self.headers, meta={"proxy": self.proxy}, dont_filter=True)
def parse(self, response):
self.logger.info(response.text)
yield Request(url=self.url, headers=self.headers, meta={"proxy": self.proxy}, dont_filter=True)
这给了我们:
2019-06-27 12:13:21 [test] INFO: 181.xx.xx.197
2019-06-27 12:13:21 [test] INFO: 38.xx.xx.199
2019-06-27 12:13:21 [test] INFO: 181.xx.xx.197
2019-06-27 12:13:22 [test] INFO: 38.xx.xx.199
2019-06-27 12:13:22 [test] INFO: 181.xx.xx.197
2019-06-27 12:13:22 [test] INFO: 38.xx.xx.199
2019-06-27 12:13:22 [test] INFO: 181.xx.xx.197
2019-06-27 12:13:23 [test] INFO: 181.xx.xx.197
2019-06-27 12:13:23 [test] INFO: 38.xx.xx.199
2019-06-27 12:13:23 [test] INFO: 181.xx.xx.197
2019-06-27 12:13:24 [test] INFO: 38.xx.xx.199
如何重置与代理服务器的 TCP 连接,以便在响应给出 403 时获得新的 IP 地址?
最佳答案
事实证明,我正在使用的代理服务 ( https://luminati.io ) 支持通过在用户名字段中添加参数来强制更新 IP。
用户名- session -%rndint:pass@proxyservice.com
并通过以下方式更改 IP 区域: username-country-us:pass@proxyservice.com
关于python - 在 Scrapy 中以编程方式重置 TCP 连接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56783958/
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
我试图获取一个长度在1到10之间的字符串,并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符,然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
我正在使用Sequel构建一个愿望list系统。我有一个wishlists和itemstable和一个items_wishlists连接表(该名称是续集选择的名称)。items_wishlists表还有一个用于facebookid的额外列(因此我可以存储opengraph操作),这是一个NOTNULL列。我还有Wishlist和Item具有续集many_to_many关联的模型已建立。Wishlist类也有:selectmany_to_many关联的选项设置为select:[:items.*,:items_wishlists__facebook_action_id].有没有一种方法可以
我使用的是Firefox版本36.0.1和Selenium-Webdrivergem版本2.45.0。我能够创建Firefox实例,但无法使用脚本继续进行进一步的操作无法在60秒内获得稳定的Firefox连接(127.0.0.1:7055)错误。有人能帮帮我吗? 最佳答案 我遇到了同样的问题。降级到firefoxv33后一切正常。您可以找到旧版本here 关于ruby-无法在60秒内获得稳定的Firefox连接(127.0.0.1:7055),我们在StackOverflow上找到一个类
question的一些答案关于redirect_to让我想到了其他一些问题。基本上,我正在使用Rails2.1编写博客应用程序。我一直在尝试自己完成大部分工作(因为我对Rails有所了解),但在需要时会引用Internet上的教程和引用资料。我设法让一个简单的博客正常运行,然后我尝试添加评论。靠我自己,我设法让它进入了可以从script/console添加评论的阶段,但我无法让表单正常工作。我遵循的其中一个教程建议在帖子Controller中创建一个“评论”操作,以添加评论。我的问题是:这是“标准”方式吗?我的另一个问题的答案之一似乎暗示应该有一个CommentsController参
几个月前,我读了一篇关于rubygem的博客文章,它可以通过阅读代码本身来确定编程语言。对于我的生活,我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗? 最佳答案 是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem?,我们在StackOverflow上找到一个类似的问题:
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。
什么是ruby的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o