02.HTTP协议与应用开发

一直流浪 2023-10-19 原文

第二天：HTTP协议与应用开发

新笔趣阁： http://www.xbiquge.la/

2.1 HTTP协议报文

HTTP（HyperText Transfer Protocol）协议是网络模型中的应用层中的协议，用于客户端和服务端之间的超文本传输或通信。主要应用于网站服务（文本、网页、图片、音频、视频、流-RTMP/m3u8）,内部都是基于TCP/IP协议（网络通信协议）。

HTTP相对于客户端和服务端之间的通信，存在两种类型的对象，一是HTTP请求Request，用于客户端向服务端发起资源操作（RESTful-增加、修改、查询和删除）；另一个是HTTP的响应Response, 用于客户端请求后的响应（服务器）。

在HTTP协议中，相对于服务器的每个资源都存在一个唯一路径，称之为统一资源定位符，即为URL（网址）。

# 百度首页资源URL
# https = http + ssl(安全证书加密规则)
# https://  -> schema 方案或方言
# ftp://
# ws://
# www.baidu.com  表示host主机名称（域名DNS），通过dns解析出它的对应的IP地址(TCP/IP)
# 默认https端口443， http端口 80
# / 表示某一站点下的首页资源访问的路径 path
https://www.baidu.com:443/

# url资源路径的格式
schema://host:port/path

2.1.1 请求报文

在HTTP协议中，请求对象应该包括两大部分：头header和正文body。

当发起baidu首页请求时，请求报文的格式如下：

GET / HTTP/1.1
Host: www.baidu.com
Accept: text/html
Cookie: sessionid=1010xx1100abc12
User-Agent: Firefox 11.0

请求报文的两个部分使用空行分隔的，如果正文是空的，也需要使用一个空行表示。

请求的方法： GET 查询（资源访问：在浏览的地址栏输入的url再请求）、POST 上传（添加资源）、PUT/PATCH 修改资源、DELETE 删除资源。

发起百度搜索资源的URL请求，报文格式如下：

GET /s HTTP/1.1
Host: www.baidu.com
User-Agent: Firefox 11.0
Accept: text/html,text/css

wd=python

发起小说的搜索的请求报文：

POST /modules/article/waps.php HTTP/1.1
Host: www.xbiquge.la
Connection: keep-alive
Content-Length: 46
Cache-Control: max-age=0
Upgrade-Insecure-Requests: 1
Origin: http://www.xbiquge.la
Content-Type: application/x-www-form-urlencoded
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
Referer: http://www.xbiquge.la/
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9
Cookie: _abcde_qweasd=0; Hm_lvt_169609146ffe5972484b0957bd1b46d6=1593737925; bdshare_firstime=1593737924892; Hm_lpvt_169609146ffe5972484b0957bd1b46d6=1593741450

searchkey=%E5%A4%A9%E4%B8%8B%E7%AC%AC%E4%B8%80

2.1.2 响应报文

请求后，服务器向客户端发送响应的数据--响应报文，它的报文格式(头 header + 正文 body )如下：

HTTP/1.1 200 OK
Content-Type:text/html;charset=utf-8
Content-Length: 120
Connection: keep-alive

<!DOCTYPE html>
<html>
  <head>
  </head>
  <body>
     <h1>hi</h1>
   </body>
</html>

如搜索小说的请求响应的报文内容如下：

HTTP/1.1 200 OK
Server: nginx
Date: Fri, 03 Jul 2020 01:58:09 GMT
Content-Type: text/html
Transfer-Encoding: chunked
Connection: keep-alive
X-Powered-By: PHP/5.5.9-1ubuntu4.29
Cache-Control: max-age=600
Content-Encoding: gzip

<!doctype html>
<html>
<head>
<title>新笔趣阁_书友最值得收藏的网络小说阅读网</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta name="keywords" content="新笔趣阁,网络小说,小说阅读网,小说" />
<meta name="description" content="新笔趣阁是广大书友最值得收藏的网络小说阅读网，网站收录了当前最火热的网络小说，免费提供高质量的小说最新章节，是广大网络小说爱好者必备的小说阅读网。" />
<link rel="stylesheet" type="text/css" href="/images/biquge.css"/>
<script type="text/javascript" src="http://libs.baidu.com/jquery/1.4.2/jquery.min.js"></script>
<!--<script type="text/javascript" src="http://cbjs.baidu.com/js/m.js"></script>-->
<script type="text/javascript" src="/images/bqg.js"></script>
</head>
<body>
    <div id="wrapper">
        ...
    </div>
</body>
<script charset="utf-8" src="http://www.baidu.com/js/opensug.js"></script>
</html>

响应的状态码：

参考： https://baike.baidu.com/item/HTTP%E7%8A%B6%E6%80%81%E7%A0%81/5053660?fr=aladdin

10x: 
20x:  
    - 200 OK 响应成功
    - 203 Non-Authoritative Information  无权限
30x:
  - 301 Moved Permanently  重定向到某一个永久资源上
  - 302 Move Temporarily   请求的资源从缓存中读取
40x:
    - 401 Unauthorized  请求资源未授权
    - 403 Forbidden     请求资源被拒绝
    - 404 Not Found     请求的资源不存在
    - 405 Method Not Allowed  请求方法不允许
50x:
 - 500 Internal Server Error  服务器内部发生了错误

2.1.3 交互的数据类型

请求的body和响应的body的数据类型（Content-Type）：因为请求和响应是一一对应的，因此从请求上传的数据到响应回来的数据这一过程称之为交互，过程产生的数据称之为交互数据。

常用的HTTP交互数据类型 Content-Type有：

application/x-javascript  表示js脚本，jquery
text/css   css样式
image/png  png图片
image/jpeg jpg图片
image/gif  git图片
text/*    文本类型的数据
application/json  json格式的数据
application/x-www-form-urlencoded  form表单的url编码后数据
multipart/form-data    多元的form表单编码后的数据，一般用于文件上传
audio/mpeg  mp3格式的音频数据
application/xml  xml格式的数据

Content-Type写法，来于文件类型描述（mime-type）的写法。

【注意】在RESTful规范中，交互的数据格式是json(application/json)或xml(application/xml)。

2.2 urllib请求与响应

urllib是Python内置一个模块，用于处理HTTP的网络请求，包括发送（打开）请求连接、获取响应对象、请求的数据进行编码处理等。

在urllib模块，导包的语句如下：

from urllib.request import urlopen, Request
from urllib.parse import quote, urlencode

2.2.1 发送请求

2.2.1.1 普通请求

url = 'http://www.xbiquge.la/'  # 声明网络资源的地址
# 发起GET请求
# request -> req
# response -> resp
response = urlopen(url)  # 发送请求，并从服务响应成功后，urlopen()返回封装响应数据的类对象
# 判断响应是否成功
if response.code == 200:
  print('--OK--')
  content = response.read()  # 读取响应的字节码
  
  # 获取响应报文头的信息，从中查看响应数据的字符集
  content_type = response.headers['Content-Type']  # text/html;charset=UTF-8
  charset = content_type[content_type.find('=')+1:]
  
  text = content.decode(charset)
  print(text)

from urllib.request import urlopen, Request
from urllib.parse import quote, urlencode
from http.client import HTTPResponse

headers = {'Referer': 'http://www.521609.com/daxuexiaohua/',
           'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) '
                         'Gecko/20100101 Firefox/78.0'}

url = 'http://www.521609.com/daxuexiaohua/'
req = Request(url, headers=headers)
resp: HTTPResponse = urlopen(req)
if resp.code == 200:
    content = resp.read()  # 读取字节数据
    content_type = resp.headers['content']  # text/html;charset=UTF-8
    charset = content_type[content_type.find('=')+1:]
    text = content.decode(charset)
    print(text)

2.2.2 响应对象的属性

响应对象的类型： http.client.HTTPResponse

属性：

code/status  响应状态码 
headers      响应的头信息，http.client.HTTPMessage,它是dict的子类，所以可以将headers当作为dict使用。
read()       读取响应的数据， 返回是字节码数据

2.3 requests请求与响应

安装requests库

pip install requests -i https://mirrors.aliyun.com/pypi/simple

生产项目中已经安装的库的说明文件

pip freeze > requirements.txt

已经知道项目的依赖环境文件，安装相关的库

pip install -r requirements.txt -i http://mirrors.aliyun.com/pypi/simple

2.3.1 模块方法

import requests

requests.request(method, url, params, data, json,headers, cookies, proxies, files, auth)

【注意】request()方法是requests模块中其他方法的基本方法。

# 常用的方法
requests.get(url, params: dict = None, headers: dict=None, cookies:dict=None)
requests.post(url, data: dict, json: dict=None， headers: dict=None, cookies:dict=None)
requests.put(url, data: dict,json: dict=None， headers: dict=None, cookies:dict=None)
requests.delete(url, params,  headers: dict=None, cookies:dict=None)

url = 'http://www.xbiquge.la/xiaoshuodaquan/'
resp = requests.get(url)

2.3.2 响应对象

响应对象的类型： requests.models.Response

导包：

# from requests.models import Response
from requests import Response

Response类在requests包的__init__.py脚本中。

对象的属性：

status_code 响应的状态码
headers 响应的header头信息，是字典类型
encoding 响应数据的文本字符集，在获取响应文本之前，可以设置它的字符集
cookies  响应的Cookie信息（客户端存储数据的一种技术）
content 响应的字节数据
text 响应的文本数据
json() 响应的数据是json内容， Content-Type: application/json

2.3.3 项目练习

# 获取所有免费的IP代理网页
url = 'https://www.kuaidaili.com/free'  # get请求
ua = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:77.0) Gecko/20100101 Firefox/77.0'
referer='https://www.kuaidaili.com/free'

resp = requests.get(url, headers={'User-Agent': ua, 'Referer': referer})
if resp.status_code == 200:
  with open('ip.html', 'wb') as f:
    f.write(resp.content)
    
  print('下载成功')

# 百度翻译建议搜索
import requests

url = 'https://fanyi.baidu.com/sug' # post请求
# form表单的参数 kw,参数值是任意的英文单词
data = {
  'kw': 'exit'
}

# 请求头的User-Agent
ua = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:77.0) Gecko/20100101 Firefox/77.0'
# 发起了post请求
resp = requests.post(url, data=data, headers={'User-Agent': ua})
if resp.status_code == 200:
  ret = resp.json() # 文本是json格式， json.loads(resp.text)
  if ret['errno'] == 0:
      for item in ret['data']:
        print(item['k'], item['v'])
  else:
      print(ret['errmsg'])

    #!/usr/bin/python3
# coding: utf-8
import requests

# 请求头的User-Agent
ua = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:77.0) Gecko/20100101 Firefox/77.0'

def sug(kw):
    url = 'https://fanyi.baidu.com/sug' # post请求
    # form表单的参数 wd,参数值是任意的英文单词
    data = {
      'kw': kw
    }

    # 发起了post请求
    resp = requests.post(url, data=data, headers={'User-Agent': ua})
    if resp.status_code == 200:
      ret = resp.json() # 文本是json格式， json.loads(resp.text)
      if ret['errno'] == 0:
          for item in ret['data']:
            print(item['k'], item['v'])
      else:
          print(ret['errmsg'])


if __name__ == '__main__':  # 当前模块作为主程序执行时，条件为True
    sug('function')

# 作业： 下载招标公告信息的前三页的数据
# 从 http://www.ccgp-xinjiang.gov.cn/ZcyAnnouncement/index.html网页分析每一页数据的接口
import requests
ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0'
url = 'http://www.ccgp-xinjiang.gov.cn/front/search/category'


def purchase(page):
    json_data = {'categoryCode': "xjcgImportantNotice",
                 'pageNo': page,
                 'pageSize': "15",
                 'utm': "sites_group_front.5b1ba037.0.0.37fbce30bd1a11ea8f27e1de87f09528"}

    resp = requests.post(url, json=json_data, headers={'User-Agent': ua})
    if resp.status_code == 200:
        with open('采购信息页面' + str(page) + '.html', 'wb') as f:
            f.write(resp.content)
        print('下载成功')


if __name__ == '__main__':
    purchase(1)
    purchase(2)
    purchase(3)

有关02.HTTP协议与应用开发的更多相关文章

ruby - 将差异补丁应用于字符串/文件 - 2
对于具有离线功能的智能手机应用程序，我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
ruby - 使用 C 扩展开发 rubygem 时，如何使用 Rspec 在本地进行测试？ - 2
我正在编写一个包含C扩展的gem。通常当我写一个gem时，我会遵循TDD的过程，我会写一个失败的规范，然后处理代码直到它通过，等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb，如何运行我的规范并仍然加载我的C扩展？当我更改C代码时，我需要采取哪些步骤来重新编译代码？这可能是个愚蠢的问题，但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时，我确实得到了一个Makefile(在整个项目的根目录中)，然后当
ruby-on-rails - Rails 应用程序之间的通信 - 2
我构建了两个需要相互通信和发送文件的Rails应用程序。例如，一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情，所以我什至不知道从哪里开始。任何帮助，将不胜感激。谢谢! 最佳答案无论Rails是什么，几乎所有Web应用程序都有您的要求，大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去，网站不应直接访问彼此
ruby - 无法运行 Rails 2.x 应用程序 - 2
我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby:$rvmuseree-1.8.7-head我尝试运行服务器，然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r
ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗？ - 2
刚入门rails，开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗？有哪些用例。您如何为Rails应用程序使用应用程序Controller？我不想在那里放太多代码，因为据我了解，每个请求都会调用此Controller。这是真的？最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度，尽管在某些情况下ApplicationContr
ruby - 如何模拟 Net::HTTP::Post？ - 2
是的，我知道最好使用webmock，但我想知道如何在RSpec中模拟此方法:defmethod_to_testurl=URI.parseurireq=Net::HTTP::Post.newurl.pathres=Net::HTTP.start(url.host,url.port)do|http|http.requestreq,foo:1endresend这是RSpec:let(:uri){'http://example.com'}specify'HTTPcall'dohttp=mock:httpNet::HTTP.stub!(:start).and_yieldhttphttp.shou
ruby-on-rails - 如何在我的 Rails 应用程序 View 中打印 ruby 变量的内容？ - 2
我是一个Rails初学者，但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby中打印出变量(认为它会在终端中出现)，但没有得到任何结果。有什么建议吗？我知道Rails调试器，但更喜欢使用inspect来打印我的变量。最佳答案您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R
Ruby Sinatra 配置用于生产和开发 - 2
我已经在Sinatra上创建了应用程序，它代表了一个简单的API。我想在生产和开发上进行部署。我想在部署时选择，是开发还是生产，一些方法的逻辑应该改变，这取决于部署类型。是否有任何想法，如何完成以及解决此问题的一些示例。例子:我有代码get'/api/test'doreturn"Itisdev"end但是在部署到生产环境之后我想在运行/api/test之后看到ItisPROD如何实现？最佳答案根据SinatraDocumentation:EnvironmentscanbesetthroughtheRACK_ENVenvironm
ruby - 是否可以覆盖 gemfile 进行本地开发？ - 2
我们的git存储库中目前有一个Gemfile。但是，有一个gem我只在我的环境中本地使用(我的团队不使用它)。为了使用它，我必须将它添加到我们的Gemfile中，但每次我checkout到我们的master/dev主分支时，由于与跟踪的gemfile冲突，我必须删除它。我想要的是类似Gemfile.local的东西，它将继承从Gemfile导入的gems，但也允许在那里导入新的gems以供使用只有我的机器。此文件将在.gitignore中被忽略。这可能吗？最佳答案设置BUNDLE_GEMFILE环境变量:BUNDLE_GEMFI
ruby - 在 Windows 机器上使用 Ruby 进行开发是否会适得其反？ - 2
这似乎非常适得其反，因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby-mysqlgem问题(gem本身发生段错误，一个名为UnixSocket的类显然在Windows机器上不能正常工作，等等)。我只是在浪费时间吗？我应该转向不同的脚本语言吗？最佳答案我在Windows上使用Ruby的经验很少，但是当我开始使用Ruby时，我是在Windows上，我的总体印象是它不是Windows原生系统。因此，在主要使用Windows多年之后，开始使用Ruby促使我切换回原来的系统Unix，这次是Linux。Rub