草庐IT

python - urllib2 HTTP 错误 429

所以我有一个子reddits列表,我正在使用urllib打开它们。当我浏览它们时,最终urllib失败了:urllib2.HTTPError:HTTPError429:Unknown做一些研究我发现reddit通过IP限制了对其服务器的请求数量:Makenomorethanonerequesteverytwoseconds.There'ssomeallowanceforburstsofrequests,butkeepitsane.Ingeneral,keepittonomorethan30requestsinaminute.所以我想我会使用time.sleep()将我的请求限制为每10

python - urllib.request 模块无法安装到我的系统中

尝试使用以下命令安装urllib.request模块sudopipinstallurllib.request但它回来了Downloading/unpackingurllib.requestCouldnotfindanydownloadsthatsatisfytherequirementurllib.requestCleaningup...Nodistributionsatallfoundforurllib.requestStoringdebuglogforfailurein/home/mounarajan/.pip/pip.log如何安装这个模块? 最佳答案

Python urllib urlopen 不工作

我只是想通过使用urllib模块从实时网络中获取数据,所以我写了一个简单的例子这是我的代码:importurllibsock=urllib.request.urlopen("http://diveintopython.org/")htmlSource=sock.read()sock.close()print(htmlSource)但是我得到了这样的错误:Traceback(mostrecentcalllast):File"D:\test.py",line3,insock=urllib.request.urlopen("http://diveintopython.org/")Attrib

python - 我正在使用 Python urllib2 下载文件。如何检查文件大小?

如果它很大...那么停止下载?我不想下载大于12MB的文件。request=urllib2.Request(ep_url)request.add_header('User-Agent',random.choice(agents))thefile=urllib2.urlopen(request).read() 最佳答案 没有必要bobince做了并放到了httplib。您可以直接使用urllib完成所有这些操作:>>>importurllib2>>>f=urllib2.urlopen("http://dalkescientific.c

python - wget 与 python 的 urlretrieve

我的任务是从网站下载Gbs的数据。数据以.gz文件的形式存在,每个文件大小为45mb。获取文件的简单方法是使用“wget-r-np-Afilesurl”。这将以递归格式下载数据并镜像网站。下载速率非常高,4mb/秒。但是,为了玩玩,我还使用python构建了我的urlparser。通过Python的urlretrieve下载非常慢,可能是wget的4倍。下载速率为500kb/秒。我使用HTMLParser来解析href标签。我不确定为什么会这样。有没有这方面的设置。谢谢 最佳答案 可能是您的单位数学错误。只是注意到500KB/s(k

python - 使用 python urllib2 发送 POST 请求并获得响应

我正在尝试通过发送POST请求取回HTML页面:importhttplibimporturllibimporturllib2fromBeautifulSoupimportBeautifulSoupheaders={'Host':'digitalvita.pitt.edu','Connection':'keep-alive','Content-Length':'325','Origin':'https://digitalvita.pitt.edu','User-Agent':'Mozilla/5.0(Macintosh;IntelMacOSX10_7_4)AppleWebKit/537.

Python lxml.etree - 从字符串解析 XML 还是直接从链接解析 XML 更有效?

使用lxml.etreepython框架,直接从链接到在线xml文件解析xml是否更有效,还是说使用不同的框架(例如urllib2),返回一个字符串然后从中解析?还是根本没有区别?方法一——直接从链接解析fromlxmlimportetreeasETparsed=ET.parse(url_link)方法二——从字符串中解析fromlxmlimportetreeasETimporturllib2xml_string=urllib2.urlopen(url_link).read()parsed=ET.parse.fromstring(xml_string)#note:Idonothavea

python - 使用 urllib2+httplib.debuglevel 调试连​​接有时不显示调试信息

试图让登录脚本正常工作,我一直返回相同的登录页面,所以我打开了http流的调试(由于https,不能使用wireshark等)。我什么都没有,所以我复制了这个例子,它有效。对google.com的任何查询都有效,但对我的目标页面不显示调试,有什么区别?如果它是重定向,我希望看到第一个get/redirectheader和http://google也重定向。importurllibimporturllib2importpdbh=urllib2.HTTPHandler(debuglevel=1)opener=urllib2.build_opener(h)urllib2.install_op

python - 如何在 Python 中跟踪元刷新

Python的urllib2遵循3xx重定向以获得最终内容。有没有办法让urllib2(或其他一些库,如httplib2)也遵循metarefreshes?或者我是否需要为刷新元标记手动解析HTML? 最佳答案 这是一个使用BeautifulSoup和httplib2(以及基于证书的身份验证)的解决方案:importBeautifulSoupimporthttplib2defmeta_redirect(content):soup=BeautifulSoup.BeautifulSoup(content)result=soup.find

python - 如何使用 Python 通过 HTTP 从远程 Zip 存档中读取选定的文件?

我需要使用Python从远程zip存档中读取选定的文件,匹配文件名。我不想将完整的zip文件保存到一个临时文件(它不是那么大,所以我可以处理内存中的所有内容)。我已经编写了代码并且可以运行,我正在自己回答这个问题,以便稍后搜索。但由于有证据表明我是Stackoverflow上最笨的参与者之一,所以我确信还有改进的余地。 最佳答案 我是这样做的(抓取所有以“.ranks”结尾的文件):importurllib2,cStringIO,zipfiletry:remotezip=urllib2.urlopen(url)zipinmemory