草庐IT

python - 从企业防火墙后面使用 urllib2 打开网站 - 11004 getaddrinfo 失败

我正在尝试使用以下方法从企业防火墙后面访问网站:-password_mgr=urllib2.HTTPPasswordMgrWithDefaultRealm()password_mgr.add_password(None,url,username,password)auth_handler=urllib2.HTTPBasicAuthHandler(password_mgr)opener=urllib2.build_opener(auth_handler)urllib2.install_opener(opener)conn=urllib2.urlopen('http://python.or

python - 无法使用 Python 的 mock.patch 模拟 urllib2.urlopen

下面是我的api.py模块的代码片段#-*-coding:utf-8-*-fromurllib2importurlopenfromurllib2importRequestclassAPI:defcall_api(self,url,post_data=None,header=None):is_post_request=Trueif(post_dataandheader)elseFalseresponse=Nonetry:ifis_post_request:url=Request(url=url,data=post_data,headers=header)#Callingapiapi_re

python - Urllib2 & BeautifulSoup : Nice couple but too slow - urllib3 & threads?

当我听到有关线程和urllib3的一些好消息时,我正在寻找一种方法来优化我的代码。显然,人们不同意哪种解决方案是最好的。下面我的脚本的问题是执行时间:太慢了!第1步:我获取此页面http://www.cambridgeesol.org/institutions/results.php?region=Afghanistan&type=&BULATS=on第2步:我用BeautifulSoup解析页面第3步:我将数据放入excel文档中第4步:我对我列表(大列表)中的所有国家/地区一次又一次地执行此操作(我只是将url中的“阿富汗”更改为另一个国家)这是我的代码:ws=wb.add_she

python - 如何处理 urllib3 中的代理

我很难找到关于如何在urllib3中构建一个简单脚本的可靠示例,该脚本打开一个url(通过代理),然后读取它并最终打印它。代理需要用户/通行证进行身份验证,但我不清楚你是怎么做到的?任何帮助将不胜感激。 最佳答案 urllib3有一个ProxyManager您可以使用的组件。您需要为BasicAuth组件构建header,您可以手动执行此操作或使用make_headersurllib3中的帮助程序。总的来说,它看起来像这样:fromurllib3importProxyManager,make_headersdefault_heade

python - Python 2.6.1 中的 urllib2 是否支持通过 https 进行代理

是否urllib2在Python2.6.1中支持通过https代理吗?我在http://www.voidspace.org.uk/python/articles/urllib2.shtml找到了以下内容:NOTECurrentlyurllib2doesnotsupportfetchingofhttpslocationsthroughaproxy.Thiscanbeaproblem.我正在尝试自动登录网站并下载文档,我有有效的用户名/密码。proxy_info={'host':"axxx",#commentedouttherealdata'port':"1234"#commentedou

python - 使用 POST 和 urllib2 访问 Web API

我正在尝试使用POST技术访问WebAPI。我能够使用GET技术访问它,但API所有者告诉我某些功能仅适用于POST。不幸的是,我似乎无法让POST工作。以下是GET的作用:API_URL="http://example.com/api/"defcall_api(method,**kwargs):url=API_URL+methodifkwargs:url+='?'+urllib.urlencode(kwargs)req=urllib2.Request(url)auth='Basic'+base64.urlsafe_b64encode("%s:%s"%(USER,PASS))req.a

python - 在 Python 2.7 中导入 'urllib3.util' 失败?

我正在处理其他人编写的Python脚本。我试图让它在我的本地开发机器上正常运行。我已经安装了脚本所需的模块(requests、urllib3和oath2),但是我遇到了以下错误,我正在努力解决;Traceback(mostrecentcalllast):File"/home/saeed/ps4/scrape/run.py",line2,inimportget_dataasgd,timeFile"/home/saeed/ps4/scrape/get_data.py",line8,inimportsys,oauth2,requests,jsonFile"/usr/local/lib/pyt

python - 如何强制 urllib2 超时?

我想测试我的应用程序在通过urllib2抓取数据时对超时的处理,我想有一些方法来强制请求超时。找不到非常非常慢的互联网连接,我可以使用什么方法?我似乎记得一个有趣的应用程序/套件,用于模拟这些事情。也许有人知道链接? 最佳答案 我通常使用netcat监听本地机器的80端口:nc-l80然后我使用http://localhost/作为我的应用程序中的请求URL。Netcat将在http端口回答,但永远不会给出响应,因此只要您在urllib2.urlopen()调用中或通过调用socket.setdefaulttimeout()。

python - 为什么我的程序在 urllib3 记录开始新的 HTTPS 连接后挂起?

我正在尝试诊断我的某些celery工作进程似乎挂起几分钟的问题。我有许多任务会进行多次IO调用(通常是对第三方API)。在任何给定的工作中,我可能会向各种API发出数千个请求。我查看了日志,它们都有一个共同点:它们在urllib3连接到远程url后挂起。在我的工作结束时(大约需要30分钟),通常会有一些任务挂起。这是我用来断定urllib3是罪魁祸首的日志示例:Jul0804:46:26app/worker.1:[INFO/MainProcess][???(???)]celery.worker.strategy:Receivedtask:my_celery_task[734a49f6-

python urllib2 计时

我想收集与网络请求的每个阶段所花费的时间相关的统计信息。httplib提供:defrun(self):conn=httplib.HTTPConnection('www.example.com')start=time.time()conn.request('GET','/')request_time=time.time()resp=conn.getresponse()response_time=time.time()conn.close()transfer_time=time.time()self.custom_timers['requestsent']=request_time-sta