草庐IT

应用部署架构:如何降低云网络时延?

轻风博客 2023-03-28 原文

 

导读:什么是时延?在电信系统中,不同应用对时延的要求是怎样的?如何通过部署架构降低网络传输时延?本文通过介绍云网络时延的构成,并对其进行量化分析,分享在不同云网络时延要求下,不同应用对应的部署架构,并简单分析了5G时代对应用部署架构的影响和度量云网络时延的工具。

在讨论云网络时延这个看起来比较专业的话题前,先看几个比较有意思的问题:
  • 人的最快反应速度是多少毫秒?

  • 机器人最快反应速度是多少毫秒?

这样能在介绍云网络时延时让大家有一个时间量级上的感知。
一  什么是时延
1  人体能感知的时延量级
  • 抢红包时,为什么总是别人能抢到?

  • 抢爆品好货时,为什么别人扣的1总在你前面?

  • 游戏对战时,为什么总感觉比对手慢了半拍?

这些是人能明显感知到的时延,这些时延量级在毫秒级(1秒=1000毫秒)。
应激反应
确切的说是人接受到外部刺激而做出反应,这个时延一般公认的极限是100ms。

大家可以在humanbenchmark这个网站测试一下自己的反应时间是多少ms,快的能到200ms左右,慢一点的就到三四百毫秒了。

机械反应
人体连续机械反应的极限,一般公认的极限是50ms。
游戏玩家“高桥名人”一秒点击按键16次,是当前无法超越的奇迹,折合每次反应的平均时间是62.5毫秒。中国玩家熟悉的冒险岛游戏的主角就是高桥名人。

2  机器能感知的时延量级
自动驾驶
特斯拉的完全自动驾驶芯片,每秒可完成144万亿次的计算,能同时处理每秒2,300帧的图像,结合本地的车载的神经网络系统,发现异常并处理的时延可以做在0.5ms左右,是人类识别外界异常并做出反应的速度的200倍。

工业制造
对于纯机械的反应,机器的速度就更快了,ABB的机器人在50秒以内可以装配出一量有5千多个零部件的汽车,是100年前福特流水线手工装配速度的1000倍。

整体上看,在机器的世界里时延和速度的单位是零点几毫秒,在人的世界里时延和速度的单位是零点几秒。
二  不同应用对时延的要求
1  面向用户的应用时延
下面这个表是电信系统中对不同应用业务的分类以及不同应用对时延和丢包的需求。

总结下来:
  • 实时竞技类游戏的时延要求是50ms

  • 实时交互类游戏的时延要求是100ms

  • 实时交互语音类的时延要求是100ms

  • 实时交互视频类的时延要求是150ms

  • 非实时大部分互联网应用时延要求是300ms

上面的标准是优秀的标准,如果时延增加50ms,则是及格线。
2  面向机器的应用的时延
5G场景下有对超低时延应用场景的划分。5G的超低时延场景,主要是面向车联网,物联网和工业互联网。
  • 工业自动化控制的时延要求是小于10ms

  • 远程/遥控驾驶的时延要求是小于10ms

  • 远程超声波检测的时延要求是小于10ms

整体上看,如果满足面向机器的超低时延应用,需要将双向时延控制在10ms以内。
对于仅涉及到数据中心内部或数据中心间的机器之间的通信,比证券和期货行业的高频交易,这种网络延迟甚至要求小于1ms。
三  端到端的时延构成
上面提到的不同应用的时延要求都是端到端的双向时延,根据应用的不同这个端到端可能是用户端和服务器端,也可能是用户端和用户端之间。
端到端的时延包括应用处理时延和网络传输时延。
1  网络层传输时延
网络层传输时延指的是数据包的传输时延,比如数据包从手机发出到服务器接收,再从服务器发送到被终端接收。
网络传输时延包括网络接入时延、固网传输时延和数据中心内部网络时延。
对于用户从家庭宽带的固定网络访问云端的应用来说,整个端到端的时延构成如下:

 

  • 用户终端接入到家庭路由器,如果通过WiFi方式,在WiFi接入用户较少,轻负载的情况下时延一般在5-15ms左右,通过网线方式一般小于1ms。

  • 家庭路由器的WAN口连接到运营商的本地固网,从本地固网到运营商骨干网再到阿里云数据中心,视距离的长短,国内的网络时延在1到100ms不等。

  • 到阿里云数据中心后,数据中心内部的时延一般小于2ms。

如果用户的终端通过4G或5G接入网络,整个端到端的时延构成会稍微复杂一些。

 

  • 4G的终端到基站的空口时延一般在10到20ms左右。

  • 5G的终端到基站的空口时延降低到了1ms。

  • 基站到核心网的时延和物理距离强相关,时延在1到15ms不等。

  • 核心网的互联网出口会连接到本地固网。

  • 从本地固网到运营商骨干网再到阿里云数据中心,视距离的长短,网络时延在1到100ms不等。

  • 到阿里云数据中心后,数据中心内部的时延一般小于2ms。

2  应用层处理时延
应用层时延包含用户前端的终端上的应用处理时延和后端的服务器上的应用处理时延。
应用层处理时延根据不同的应用差异比较大,有的在10ms以内,有的则大于100 ms。
比如说抢红包,买商品之类的简单交互类应用,主要是一些数据包的交互,这种的应用层处理时延先对较少,很多在10ms以内。

  • 对于工业互联网类的应用,主要也时控制类的报文的交互,应用层处理时延会更小,很多在5ms以内。

  • 对于游戏类的应用,主要是终端向游戏服务器发送各种指令,另外一个方向是终端收到服务的数据后展示给用户。这种类型的应用的应用层处理时间比较适中,一般在30ms以内。终端发送指令时延很短,很多时候可以小于1ms,在服务器侧的游戏处理逻辑情况下也很快,一般在5ms内都能处理完,用户终端收到游戏服务器的数据后通过渲染将画面呈现给用户,这个应用层的渲染过程会稍微耗时一些,根据用户终端的处理性能,游戏的炫酷程度,处理时延在5到30ms之间不等。整体上游戏场景下的应用层处理时延在10到30ms。

  • 而涉及到音视频领域的应用层处理时延一般会比较高,主要是涉及到外设的音视频采集,音视频编解码,降噪和渲染等信号处理。业界比较成熟的音视频平台的应用层端到端时延一般可以控制在100ms以内。

四  从时延角度看应用部署架构
1  工业互联网类的应用部署架构
工业互联网类的应用的实时性要求一般都比较高,很多要求端到端时延在10ms左右。

 

减去应用层的5ms左右的处理时延,留给网络层的处理时延也就5ms了。
前面提到了网络层的时延包括网络接入时延、固网传输时延和数据中心内部网络时延:
  • 4G网络的网络接入时延一般在20ms左右,这种显然满足不了工业互联网的需求。

  • 固网网线接入时延一般小于1ms,所以很多工业互联网场景的设备时通过固网网线连接的。在5G时代,网络接入时延可以在1ms以内,可以把之前固定的设备无线化。

  • 对于数据中心内部处理时延,一般小型数据中心内部时延都小于1ms,超大型数据中心内部会大于1ms,但一般也会小于2ms。

如果按网络接入时延1ms,数据中心内部时延1ms,留给固网传输时延就3ms了。固网的1ms双向传输时延,代表光纤距离是100km。
这就要求在工业互联网场景下云数据中心要尽可能的靠近工业园区,基本上不能跨城。
在这种场景下用户可以选择的应用部署架构包括阿里云云盒本地部署,阿里云混合云本地部署。
2  实时音视频类应用部署架构
实时音视频类应用的特点是应用层处理时延较多,业界先进的音视频平台可以做到100ms以内。
实时音视频类的端到端的时延如前文所述端到端时延最好能控制在150ms以内,如果是在200ms以内也可以接受。
此时留给网络层的时延最多也就100ms。
而实时音视频应用的特点是两个用户终端通信,在这种场景下实际上是两个用户的流量是通过音视频服务器连接起来的,所以实际路径是:用户1 <—> 音视频服务器 <-> 用户2。

所以在音视频场景下,服务器到用户的网络传输时延应该控制在50ms以内。
音视频场景下大部分用户都使用移动端,对于4G网络网络接入时延一般在20ms左右。此时留给固网传输时延的时间在30ms以内。
下面是阿里云不同地域服务器到覆国内不同省份的固网时延图。

北京BGP EIP到不同省份时延数据

上海BGP EIP到不同省份时延数据

深圳BGP EIP到不同省份时延数据

成都BGP EIP到不同省份时延数据
在音视频场景下,在4G时代,要想给用户提供很好的用户体验,要考虑音视频服务器多地域部署。比如用阿里云北京Region覆盖京津冀经济区,用阿里云上海Region覆盖长三角地区,用阿里云深圳Region覆盖珠三角经济区,用阿里云成都Region覆盖西三角经济区。
在5G场景下,可以将网络接入时延从20ms降低到1ms。此时留给固网的传输时延可以从30ms变为50ms。这将很大程度上简化应用的部署架构,从理论上可以实现音视频服务器从多地域部署变为单地域部署。

 

3  实时竞技游戏类应用部署架构
实时竞技类游戏的端到端时延最好能控制在50ms以内,如果是在100ms以内也可以接受。
如果按端到端时延100ms来考虑,给游戏的前端和后端的应用层时延分配50ms。此时留给网络层的时延也变成了50ms。游戏场景下主要是用户和游戏服务器进行交互。此时要求游戏服务器到用户的网络层时延在50ms以内。

考虑到当前4G场景下,网络接入时延约20ms,此时留给固网传输时延的时间在30ms以内。在这种场景下和上面的实时音视频的应用部署架构要求基本一致了。
所以在4G场景下,对于实时竞技类游戏,需要多地域部署。可以考虑用阿里云北京Region覆盖京津冀经济区,用阿里云上海Region覆盖长三角地区,用阿里云深圳Region覆盖珠三角经济区,用阿里云成都Region覆盖西三角经济区。
在5G大规模部署的场景下,可以考虑单个地域部署。
4  实时交互类应用部署架构
实时竞技类游戏的端到端时延最好能控制在100ms以内,如果是在150ms以内也可以接受。
如果按端到端时延150ms来考虑,给游戏的前端和后端的应用层时延分配50ms。此时留给网络层的时延也变成了100ms。游戏场景下主要是用户和游戏服务器进行交互。此时要求游戏服务器到用户的网络层时延在100ms以内。
100ms的网络层传输时延是一个很宽松的要求,基本上用阿里云一个地域的服务器即可达到很好的覆盖效果。

所以对于实时交互类游戏应用,选择阿里云的一个地域部署应用即可。
5  电商类应用部署架构
电商类的应用的实时交互相对来讲不是太多,对端到端的时延能控制在300ms以内就能满足要求了。而电商应用后端和前端处理逻辑也相对来讲时延消耗也不是太多,给应用层处理时延分配100ms的话,网络层的时延还有200ms。
200ms的网络层传输时延是一个更宽松的指标。

所以对于电商类的应用,单纯从时延的角度考虑,选择阿里云的一个地域部署应用即可。不过电商类的应用一般情况下对可靠性要求都比较高,综合考虑容灾和高可靠,还是建议多地域高靠部署。
五  如何度量时延
时延是一个影响用户体验的关键指标,在一定程度上也能比较好的反应网络质量,如何有效的度量时延也变得很关键。
下面简单介绍几种比较有效的度量时延的工具和产品。
1  Ping
如果想进行点到点的时延测量,那么最简单最使用的就是ICMP Ping了。

通过ICMP Ping可以获取点到点的双向时延数据。
如果要想进行点到多点的时延测量,这种业界一般叫网络拨测。对于网络拨测阿里云也有比较成熟的产品化工具。
2  实时拨测
当前阿里云比较好用的网络实时拨测工具的链接如下:
https://zijian.aliyun.com/detect/ping
当前这个拨测工具是免费的。

 

通过阿里云的实时拨测工具,只需要输入IP或域名,就可以直接发起全国的探针对目标域名或IP的实时探测,2分钟就会出现全量的结果并以图形化方式呈现。
3  持续拨测
如果希望对应用持续进行网络质量的监控,如果出现故障后能否发送告警到具体的负责人,这种场景下阿里云对应的工具是云监控的站点监控,地址:
https://cloudmonitor.console.aliyun.com/index.htm#/newSite/list/

 

站点监控支持自定义探针和告警规则。
当前站点监控的探针基本上已经覆盖了中国内地的90%以上的省份和运营商。
告警规则的定义也比较灵活,而且可以将告警以邮件,电话,短信,钉钉机器人的方式发送。

 

六  总结
  • 不同的应用对于端到端的时延要求不同,对应的应用的部署架构也不一样。

  • 端到端的时延包含应用层处理时延和网络层传输时延。

  • 应用层处理时延一般情况下不太好优化,网络层传输时延可以通过部署架构优化的方式降低。

  • 网络层传输时延包括网络接入时延、固网传输时延和云数据中心内网络时延。

  • 通过将应用部署到靠近用户的位置,可以有效的降低固网传输时延。

  • 5G主要优化的是网络接入时延,在5G普及后对实时音视频、实时竞技游戏类应用部署架构的简化会比较有帮助。

  • 度量固网传输时延可以使用比较成熟的实时拨测和持续拨测工具。

 

作者:秋光

有关应用部署架构:如何降低云网络时延?的更多相关文章

  1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

    我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

  2. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  3. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  4. ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2

    给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru

  5. ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2

    我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t

  6. ruby - 将差异补丁应用于字符串/文件 - 2

    对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl

  7. ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2

    我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

  8. ruby - 如何指定 Rack 处理程序 - 2

    Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack

  9. ruby - 如何每月在 Heroku 运行一次 Scheduler 插件? - 2

    在选择我想要运行操作的频率时,唯一的选项是“每天”、“每小时”和“每10分钟”。谢谢!我想为我的Rails3.1应用程序运行调度程序。 最佳答案 这不是一个优雅的解决方案,但您可以安排它每天运行,并在实际开始工作之前检查日期是否为当月的第一天。 关于ruby-如何每月在Heroku运行一次Scheduler插件?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/8692687/

  10. ruby-on-rails - 如何从 format.xml 中删除 <hash></hash> - 2

    我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据,就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理?我没有在文档中找到任何内容。 最佳答案 我遇到了同样的问题;这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML,但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中,将我的XML代码修改为

随机推荐