草庐IT

python - 如何清除 urllib.request 中的 cookie(python3)

通过查看文档,我的第一个猜测是我调用了urllib.request.HTTPCookieProcessor().cookiejar.clear(),但是那没有用。我的下一个猜测是,也许我需要将它子类化并使用opener构建/安装它?我不知道该怎么做,如果需要的话我当然可以,但对于我认为应该如此简单的操作来说,这真的有点过分了。 最佳答案 默认情况下,urllib.request不会存储任何cookie,因此无需清除任何内容。如果您构建一个包含OpenerDirector和HTTPCookieProcessor实例作为处理程序之一,则

python - 使用urllib2时如何解决Python内存泄漏?

我正在尝试为我的手机编写一个简单的Python脚本,以使用urrlib2定期加载网页。事实上我并不真正关心服务器响应,我只想将URL中的一些值传递给PHP。问题是S60的Python使用旧的2.5.4Python核心,它似乎在urrlib2模块中有内存泄漏。正如我读到的那样,每种类型的网络通信中似乎也存在这样的问题。此错误已报告here几年前,同时也发布了一些解决方法。在Google的帮助下,我已经尝试了在该页面上可以找到的所有内容,但我的手机在加载约70个页面后仍然内存不足。奇怪的是,GarbegeCollector似乎也没有任何区别,除了让我的脚本慢得多。据说,较新的(3.1)核心

java - Python 的 urllib2.urlopen() 挂起与 Java ReSTLet 服务器的本地连接

我正在尝试从python连接到本地运行的ReSTLet服务器,但连接无限挂起(或者如果我设置了超时则超时)。importurllib2handle=urllib2.urlopen("http://localhost:8182/contact/123")#hangs如果我在shell中使用curl打开上面的URL,结果会很快返回。如果我使用urllib2打开不同的本地服务(例如端口8000上的DjangoWeb服务器),urllib2工作正常。我试过禁用防火墙(我在OSX上这样做)。我试过将本地主机更改为127.0.0.1。除了用户代理之外,ReSTLet的curl和urllib2连接日

python - 再次 urllib.error.HTTPError : HTTP Error 400: Bad Request

喂!我试图打开通常在浏览器中打开的网页,但python只是发誓并且不想工作。importurllib.request,urllib.errorf=urllib.request.urlopen('http://www.booking.com/reviewlist.html?cc1=tr;pagename=sapphire')另一种方式importurllib.request,urllib.erroropener=urllib.request.build_opener()f=opener.open('http://www.booking.com/reviewlist.html?cc1=tr

python - urllib2 基本认证怪人

我用这个把头撞在墙上。我一直在尝试每一个例子,阅读我能在网上找到的关于使用urllib2的基本http授权的最后一点,但我无法弄清楚是什么导致了我的特定错误。更令人沮丧的是代码适用于一个页面,但不适用于另一页。登录www.mysite.com/adm非常顺利。它验证没有问题。然而,如果我将地址更改为“http://mysite.com/adm/items.php?n=201105&c=200”,我会收到此错误:Add/EditItemsClient:Event:NotenoughinformationtocompletethistaskThisisafatalerrorsoIamexi

python - 为什么我能够在 python 3 urllib.request 中读取 HEAD http 请求?

我想发出一个没有任何内容数据的HEAD请求以节省带宽。我正在使用urllib.request。但是,经过测试,似乎HEAD请求也获取了数据?怎么回事?Python3.4.2(v3.4.2:ab2c023a9432,Oct62014,22:16:31)[MSCv.160064bit(AMD64)]onwin32Type"help","copyright","credits"or"license"formoreinformation.>>>importurllib.request>>>req=urllib.request.Request("http://www.google.com",me

python - 当连接中断时,读取 urllib2 生成的流永远不会恢复

在尝试使我的一个python应用程序在连接中断的情况下更加健壮时,我发现调用urllib2生成的http-stream的读取函数可能会永远阻止脚本。我认为读取函数会超时并最终引发异常,但在读取函数调用期间连接中断时情况并非如此。这是会导致问题的代码:importurllib2whileTrue:try:stream=urllib2.urlopen('http://www.google.de/images/nav_logo4.png')whilestream.read():passprint"Done"except:print"Error"(如果您尝试脚本,您可能需要多次中断连接,然后才

python - 随机使用不同的代理和用户代理进行智能屏幕抓取?

我想从http://abc.com/view_page.aspx?ID=下载几个HTML页面ID来自不同数字的数组。我有兴趣访问此URL的多个实例并将文件保存为[ID].HTML使用不同的代理IP/端口。我想使用不同的用户代理,并且我想随机化每次下载前的等待时间。这样做的最佳方法是什么?网址库2?网址?curl?对于手头的任务,您更喜欢什么?请指教。谢谢大家! 最佳答案 使用类似的东西:importurllib2importtimeimportrandomMAX_WAIT=5ids=...agents=...proxies=...f

python - 为什么这个 url 使用 httplib2 和 urllib2 引发 BadStatusLine?

使用httplib2和urllib2,我试图从这个url获取页面,但所有这些都没有成功,并以这个异常结束。content=conn.request(uri="http://www.zdnet.co.kr/news/news_print.asp?artice_id=20110727092902")Traceback(mostrecentcalllast):File"",line1,inFile"/usr/lib/python2.7/dist-packages/httplib2/__init__.py",line1129,inrequest(response,content)=self._

Python urllib3 以及如何处理 cookie 支持?

所以我正在调查urllib3因为它有连接池并且是线程安全的(所以性能更好,特别是对于爬行),但是文档......至少可以说是最少的。urllib2有build_opener这样的东西:#!/usr/bin/pythonimportcookielib,urllib2cj=cookielib.CookieJar()opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))r=opener.open("http://example.com/")但是urllib3没有build_opener方法,所以到目前为止我想到的唯一方法是手动