Urllib2

python - urllib2 HTTP 错误 429

所以我有一个子reddits列表，我正在使用urllib打开它们。当我浏览它们时，最终urllib失败了:urllib2.HTTPError:HTTPError429:Unknown做一些研究我发现reddit通过IP限制了对其服务器的请求数量:Makenomorethanonerequesteverytwoseconds.There'ssomeallowanceforburstsofrequests,butkeepitsane.Ingeneral,keepittonomorethan30requestsinaminute.所以我想我会使用time.sleep()将我的请求限制为每10

python - urllib.request 模块无法安装到我的系统中

尝试使用以下命令安装urllib.request模块sudopipinstallurllib.request但它回来了Downloading/unpackingurllib.requestCouldnotfindanydownloadsthatsatisfytherequirementurllib.requestCleaningup...Nodistributionsatallfoundforurllib.requestStoringdebuglogforfailurein/home/mounarajan/.pip/pip.log如何安装这个模块？最佳答案

request python urllib section ubuntu pip sudo

Python urllib urlopen 不工作

我只是想通过使用urllib模块从实时网络中获取数据，所以我写了一个简单的例子这是我的代码:importurllibsock=urllib.request.urlopen("http://diveintopython.org/")htmlSource=sock.read()sock.close()print(htmlSource)但是我得到了这样的错误:Traceback(mostrecentcalllast):File"D:\test.py",line3,insock=urllib.request.urlopen("http://diveintopython.org/")Attrib

urlopen Python urllib section code

python - 我正在使用 Python urllib2 下载文件。如何检查文件大小？

如果它很大...那么停止下载？我不想下载大于12MB的文件。request=urllib2.Request(ep_url)request.add_header('User-Agent',random.choice(agents))thefile=urllib2.urlopen(request).read() 最佳答案没有必要bobince做了并放到了httplib。您可以直接使用urllib完成所有这些操作:>>>importurllib2>>>f=urllib2.urlopen("http://dalkescientific.c

urllib2 python 39 section urllib file download

python - wget 与 python 的 urlretrieve

我的任务是从网站下载Gbs的数据。数据以.gz文件的形式存在，每个文件大小为45mb。获取文件的简单方法是使用“wget-r-np-Afilesurl”。这将以递归格式下载数据并镜像网站。下载速率非常高，4mb/秒。但是，为了玩玩，我还使用python构建了我的urlparser。通过Python的urlretrieve下载非常慢，可能是wget的4倍。下载速率为500kb/秒。我使用HTMLParser来解析href标签。我不确定为什么会这样。有没有这方面的设置。谢谢最佳答案可能是您的单位数学错误。只是注意到500KB/s(k

python urlretrieve section amp urllib2 wget

python - 使用 python urllib2 发送 POST 请求并获得响应

我正在尝试通过发送POST请求取回HTML页面:importhttplibimporturllibimporturllib2fromBeautifulSoupimportBeautifulSoupheaders={'Host':'digitalvita.pitt.edu','Connection':'keep-alive','Content-Length':'325','Origin':'https://digitalvita.pitt.edu','User-Agent':'Mozilla/5.0(Macintosh;IntelMacOSX10_7_4)AppleWebKit/537.

python urllib2 39 gt section post request beautifulsoup

Python lxml.etree - 从字符串解析 XML 还是直接从链接解析 XML 更有效？

使用lxml.etreepython框架，直接从链接到在线xml文件解析xml是否更有效，还是说使用不同的框架(例如urllib2)，返回一个字符串然后从中解析？还是根本没有区别？方法一——直接从链接解析fromlxmlimportetreeasETparsed=ET.parse(url_link)方法二——从字符串中解析fromlxmlimportetreeasETimporturllib2xml_string=urllib2.urlopen(url_link).read()parsed=ET.parse.fromstring(xml_string)#note:Idonothavea

XML Python code section urllib2 parsing lxml

python - 使用 urllib2+httplib.debuglevel 调试连接有时不显示调试信息

试图让登录脚本正常工作，我一直返回相同的登录页面，所以我打开了http流的调试(由于https，不能使用wireshark等)。我什么都没有，所以我复制了这个例子，它有效。对google.com的任何查询都有效，但对我的目标页面不显示调试，有什么区别？如果它是重定向，我希望看到第一个get/redirectheader和http://google也重定向。importurllibimporturllib2importpdbh=urllib2.HTTPHandler(debuglevel=1)opener=urllib2.build_opener(h)urllib2.install_op

debuglevel httplib header google urllib python urllib2

python - 如何在 Python 中跟踪元刷新

Python的urllib2遵循3xx重定向以获得最终内容。有没有办法让urllib2(或其他一些库，如httplib2)也遵循metarefreshes？或者我是否需要为刷新元标记手动解析HTML？最佳答案这是一个使用BeautifulSoup和httplib2(以及基于证书的身份验证)的解决方案:importBeautifulSoupimporthttplib2defmeta_redirect(content):soup=BeautifulSoup.BeautifulSoup(content)result=soup.find

何在 python content section 34 redirect refresh urllib2 httplib2

python - 如何使用 Python 通过 HTTP 从远程 Zip 存档中读取选定的文件？

我需要使用Python从远程zip存档中读取选定的文件，匹配文件名。我不想将完整的zip文件保存到一个临时文件(它不是那么大，所以我可以处理内存中的所有内容)。我已经编写了代码并且可以运行，我正在自己回答这个问题，以便稍后搜索。但由于有证据表明我是Stackoverflow上最笨的参与者之一，所以我确信还有改进的余地。最佳答案我是这样做的(抓取所有以“.ranks”结尾的文件):importurllib2,cStringIO,zipfiletry:remotezip=urllib2.urlopen(url)zipinmemory

存档 python section ranks urllib2 http zip

7 8 91011 12 13