我正在使用urllib2与网络服务器进行交互。对于我需要解决的具体问题,我需要通过代理隧道传输流量。我设法用urllib2'ProxyHandler'做到了这一点。我还需要接受和发送cookie。我设法用urllib2'cookielib.LWPCookieJar()'做到了这一点。问题是,虽然他们单独工作,但他们不会“一起”工作。我用“urllib2.install_opener(opener)”添加的最后一个开启器是可行的。是否有可能有两个活跃的“开场白”?或者用其他方法解决这个问题? 最佳答案 将代理处理程序和cookie处理
我有以下简单代码:importurllib2importsyssys.path.append('../BeautifulSoup/BeautifulSoup-3.1.0.1')fromBeautifulSoupimport*page='http://en.wikipedia.org/wiki/Main_Page'c=urllib2.urlopen(page)此代码生成以下错误消息:c=urllib2.urlopen(page)File"/usr/lib64/python2.4/urllib2.py",line130,inurlopenreturn_opener.open(url,dat
我使用HTMLparser做了一个小解析器,我想知道链接被重定向到哪里。我不知道如何解释这个,所以请看这个例子:在我的页面上,我有一个源链接:http://www.myweb.com?out=147,重定向到http://www.mylink.com。我可以毫无问题地解析http://www.myweb.com?out=147,但我不知道如何获取http://www.mylink.com. 最佳答案 您可以使用urllib2(Python3中的urllib.request)及其HTTPRedirectHandler为了找出URL会将
我对Python(和网络抓取)还很陌生。让我问你一个问题。许多网站实际上并没有报告其在Firefox或其他浏览器中的特定URL。例如,SocialSecurityAdmin显示了流行的婴儿名字和排名(自1880年以来),但是当我将年份从1880更改为1881时,url并没有改变。它是不断的,http://www.ssa.gov/cgi-bin/popularnames.cgi因为不知Prop体的URL,无法使用urllib下载网页。在这个页面源码中,包括:所以大概,如果我能控制这个“年份”值(比如“1881”或“1991”),我就能解决这个问题。我对吗?我仍然不知道该怎么做。谁能告诉我
在python中,我将如何发出http请求而不是等待响应。我不关心取回任何数据,我只需要向服务器注册一个页面请求。现在我使用这段代码:urllib2.urlopen("COOLWEBSITE")但显然这会暂停脚本,直到返回响应,我只想发出请求并继续。我该怎么做? 最佳答案 你在这里想要的是Threading或Asynchronous。线程:将对urllib2.urlopen()的调用包装在threading.Thread()中例子:fromthreadingimportThreaddefopen_website(url):retur
我正在尝试从网站获取header,将其编码为JSON以将其写入文件。我尝试了两种不同的方法,但均未成功。首先使用urllib2和jsonimporturllib2importjsonhost=("https://www.python.org/")header=urllib2.urlopen(host).info()json_header=json.dumps(header)printjson_header这样我得到错误:TypeError:isnotJSONserializable所以我尝试通过将对象转换为字符串来绕过这个问题->json_header=str(header)通过这种方
如果response.status_code不是200,如何避免urllib.request.urlopen的异常?现在它根据请求状态引发URLError或HTTPError。有没有其他方法可以用python3基本库发出请求?如果status_code!=200我如何获取响应header? 最佳答案 使用tryexcept,如下代码:fromurllib.requestimportRequest,urlopenfromurllib.errorimportURLError,HTTPErrorreq=Request("http://ww
我正在尝试使用python向需要cookie的RSS提要发出请求。我认为使用urllib2并添加适当的标题就足够了,但请求一直说未经授权。我猜这可能是远程站点方面的问题,但不确定。如何将urllib2与cookie一起使用?有没有更好的包(比如httplib、mechanize、curl) 最佳答案 我会使用requests包,docs,它比urlib2(健全的API)更容易使用。如果响应包含一些Cookie,您可以快速访问它们:url='http://httpbin.org/cookies/set/requests-is/awes
事情进展顺利,直到我的一个项目开始在每个地方打印它,在每次执行的顶部,至少打印一次:local/lib/python2.7/site-packages/cryptography/hazmat/primitives/constant_time.py:26:CryptographyDeprecationWarning:SupportforyourPythonversionisdeprecated.Thenextversionofcryptographywillremovesupport.Pleaseupgradetoa2.7.xreleasethatsupportshmac.compare
我正在尝试使用BeautifulSoup从网站(http://brooklynexposed.com/events/)中提取内容。作为问题的示例,我可以运行以下代码:importurllibimportbs4asBeautifulSoupurl='http://brooklynexposed.com/events/'html=urllib.urlopen(url).read()soup=BeautifulSoup.BeautifulSoup(html)printsoup.prettify().encode('utf-8')输出好像截断了html如下:9:00pm-11:00pmCome