一篇带你了解接口突然超时十宗罪

苏三呀 2023-03-28 原文

前言

不知道你有没有遇到过这样的场景：我们提供的某个API接口，响应时间原本一直都很快，但在某个不经意的时间点，突然出现了接口超时。

也许你会有点懵，到底是为什么呢？

今天跟大家一起聊聊接口突然超时的10个原因，希望对你会有所帮助。

1、网络异常

接口原本好好的，突然出现超时，最常见的原因，可能是网络出现异常了。比如：偶然的网络抖动，或者是带宽被占满了。

（1）网络抖动

经常上网的我们，肯定遇到过这样的场景：大多数情况下我们访问某个网站很快，但偶尔会出现网页一直转圈，加载不出来的情况。

有可能是你的网络出现了抖动，丢包了。

网页请求API接口，或者接口返回数据给网页，都有可能会出现网络丢包的情况。

网络丢包可能会导致接口超时。

（2）带宽被占满

有时候，由于页面或者接口设计不合理，用户请求量突增的时候，可能会导致服务器的网络带宽被占满的情况。

服务器带宽指的是在一定时间内传输数据的大小，比如：1秒传输了10M的数据。

如果用户请求量突然增多，超出了1秒10M的上限，比如：1秒100M，而服务器带宽本身1秒就只能传输10M，这样会导致在这1秒内，90M数据就会延迟传输的情况，从而导致接口超时的发生。

所以对于有些高并发请求场景，需要评估一下是否需要增加服务器带宽。

2、线程池满了

我们调用的API接口，有时候为了性能考虑，可能会使用线程池异步查询数据，最后把查询结果进行汇总，然后返回。

如下图所示：调用远程接口总耗时 200ms = 200ms（即耗时最长的那次远程接口调用）

在java8之前可以通过实现Callable接口，获取线程返回结果。

java8以后通过CompleteFuture类实现该功能。我们这里以CompleteFuture为例：

public UserInfo getUserInfo(Long id) throws InterruptedException, ExecutionException {
    final UserInfo userInfo = new UserInfo();
    CompletableFuture userFuture = CompletableFuture.supplyAsync(() -> {
        getRemoteUserAndFill(id, userInfo);
        return Boolean.TRUE;
    }, executor);

    CompletableFuture bonusFuture = CompletableFuture.supplyAsync(() -> {
        getRemoteBonusAndFill(id, userInfo);
        return Boolean.TRUE;
    }, executor);

    CompletableFuture growthFuture = CompletableFuture.supplyAsync(() -> {
        getRemoteGrowthAndFill(id, userInfo);
        return Boolean.TRUE;
    }, executor);
    CompletableFuture.allOf(userFuture, bonusFuture, growthFuture).join();

    userFuture.get();
    bonusFuture.get();
    growthFuture.get();

    return userInfo;
}

这里我用到了executor，表示自定义的线程池，为了防止高并发场景下，出现线程过多的问题。

但如果用户请求太多，线程池中已有的线程处理不过来，线程池会把多余的请求，放到队列中排队，等待空闲线程的去处理。

如果队列中排队的任务非常多，某次API请求一直在等待，没办法得到及时处理，就会出现接口超时问题。

这时候，我们可以考虑是否核心线程数设置太小了，或者有多种业务场景共用了同一个线程池。

如果是因为核心线程池设置太小，可以将其调大一些。

如果是因为多种业务场景共用了同一个线程池，可以拆分成多个线程池。

3、数据库死锁

有时候接口超时得有点莫名其妙，特别是遇到数据库出现死锁的时候。

你提供的API接口中通过某个id更新某条数据，此时，正好线上在手动执行一个批量更新数据的sql语句。

该sql语句在一个事务当中，并且刚好也在更新那条数据，可能会出现死锁的情况。

由于该sql语句执行时间很长，会导致API接口的那次更新数据操作，长时间被数据库锁住，没法即使返回数据，而出现接口超时问题。

你说坑不坑？

所以建议在执行数据库批量操作前，一定要评估数据的影响范围，不要一次性更新太多的数据，不然可能会导致很多意想不到的问题。

此外，批量更新操作建议在用户访问少的时段执行，比如：凌晨。

4、传入参数太多

有时候，偶尔的一次接口超时，是由于参数传入太多导致的。

例如：根据id集合批量查询分类接口，如果传入的id集合数据量不多，传入几十个或上百个id，不会出现性能问题。毕竟id是分类表的主键，可以走主键索引，数据库的查找速度是非常快的。

但如果接口调用方，一次性传入几千个，甚至几万个id，批量查询分类，也可能会出现接口超时问题。

因为数据库在执行sql语句之前，会评估一下耗时情况，查询条件太多，有可能走全表扫描更快。

所以这种情况下sql语句可能会丢失索引，让执行时间变慢，出现接口超时问题。

因此我们在设计批量接口的时候，建议要限制传入的集合的大小，比如：500。

如果超过我们设置最大的集合大小，则接口直接返回失败，并提示给用户：一次性传入参数过多。

该限制一定要写到接口文档中，避免接口调用方，在生产环境调用接口失败而踩坑。要在接口开发阶段通知到位。

此外，如果接口调用方要传入的参数就是很多怎么办？

答：可能是需求不合理，或者系统设计有问题，我们要尽量在系统设计阶段就规避这个问题。

如果我们重新进行系统设计改动比较大的话，有个临时的解决方案：在接口调用方中多线程分批调用该接口，最后将结果进行汇总。

5、超时时间设置过短

通常情况下，建议我们在调用远程API接口时，要设置连接超时时间和读超时时间这两个参数，并且可以动态配置。

这样做的好处是，可以防止调用远程API接口万一出现了性能问题，响应时间很长，把我们自己的服务拖挂的情况发生。

比如：你调用的远程API接口，要100秒才返回数据，而你设置的超时时间是100秒。这时1000个请求过来，去请求该API接口，这样会导致tomcat线程池很快被占满，导致整个服务暂时不可用，至少新的请求过来，是没法即使响应的。

所以我们需要设置超时时间，并且超时时间还不能设置太长。

并发量不大的业务场景，可以将这两个超时时间设置稍微长一点，比如：连接超时时间为10秒，读超时时间为20秒。

并发量大的业务场景，可以设置成秒级或者毫秒级。

有些小伙伴为了开发方便，在多种业务场景共用这两个超时时间。

某一天，在并发量大的业务场景中，你将该超时时间改短了。

但直接导致并发量不大的业务场景中，出现调用API接口超时的问题。

因此，不建议多种业务场景共用同一个超时时间，最好根据并发量的不同，单独设置不同的超时时间。

6、一次性返回数据太多

不知道你有没有遇到过这样的需求：我们有个job，每天定时调用第三方API查询接口，获取昨天更新的数据，然后更新到我们自己的数据库表中。

由于第三方每天更新的数据不多，所以该API接口响应时间还是比较快的。

但突然有一天，该API接口却出现了接口超时问题。

查看日志发现，该API接口一次性返回的数据太多，而且该数据的更新时间相同。

这就可以断定，该API接口提供方进行了批量更新操作，修改了大量的数据，导致该问题的发生。

即使我们在job中加了失败重试机制，但由于该API一次性返回数据实在太多太多，重试也很有可能会接口超时，这样会导致一直获取不到第三方前一天最新的数据。

所以第三方这种根据日期查询增量数据的接口，建议做成分页查询的，不然后面没准哪一天，遇到批量更新的操作，就可能出现接口超时的问题。

7、死循环

死循环也会导致接口超时？

死循环不应该在接口测试阶段就发现了，为什么要到生产环境才发现？

确实，绝大部分死循环问题，在测试阶段可以发现。

但有些无限递归隐藏的比较深，比如下面的情况。

死循环其实有两种：

普通死循环
无限递归

（1）普通死循环

有时候死循环是我们自己写的，例如下面这段代码：

while(true) {
    if(condition) {
        break;
    }
    System.out.println("do samething");
}

这里使用了while(true)的循环调用，这种写法在CAS自旋锁中使用比较多。

当满足condition等于true的时候，则自动退出该循环。

如果condition条件非常复杂，一旦出现判断不正确，或者少写了一些逻辑判断，就可能在某些场景下出现死循环的问题。

出现死循环，大概率是开发人员人为的bug导致的，不过这种情况很容易被测出来。

还有一种隐藏的比较深的死循环，是由于代码写的不太严谨导致的。如果用正常数据，可能测不出问题，但一旦出现异常数据，就会立即出现死循环。

（2）无限递归

如果想要打印某个分类的所有父分类，可以用类似这样的递归方法实现：

public void printCategory(Category category){
  if(category == null 
      || category.getParentId() == null) {
     return;
  } 
  System.out.println("父分类名称："+ category.getName());
  Category parent = categoryMapper.getCategoryById(category.getParentId());
  printCategory(parent);
}

正常情况下，这段代码是没有问题的。

但如果某次有人误操作，把某个分类的parentId指向了它自己，这样就会出现无限递归的情况。导致接口一直不能返回数据，最终会发生堆栈溢出。

建议写递归方法时，设定一个递归的深度，比如：分类最大等级有4级，则深度可以设置为4。然后在递归方法中做判断，如果深度大于4时，则自动返回，这样就能避免无限递归的情况。

8、sql语句没走索引

你有没有遇到过这样一种情况：明明是同一条sql，只有入参不同而已。有的时候走的索引a，有的时候却走的索引b？

没错，有时候mysql会选错索引，甚至有时会不走索引。

mysql在执行某条sql语句之前，会通过抽样统计来估算扫描行数，根据影响行数、区分度、基数、数据页等信息，最后综合评估走哪个索引。

有时候传入参数1，sql语句走了索引a，执行时间很快。但有时候传入参数2，sql语句走了索引b，执行时间明显慢了很多。

这样有可能会导致API接口出现超时问题。

必要时可以使用force index来强制查询sql走某个索引。

9、服务OOM

我之前遇到过这样一种场景：一个根据id查询分类的接口，该id是主键，sql语句可以走主键索引，竟然也出现了接口超时问题。

我当时觉得有点不可思议，因为这个接口平均耗时只有十几毫秒，怎么可能会出现超时呢？

但从当时的日志看，接口响应时间有5秒，的确出现了接口超时问题。

最后从Prometheus的服务内存监控中，查到了OOM问题。

其实该API接口部署的服务当时由于OOM内存溢出，其实挂了一段时间。

当时所有的接口都出现了请求超时问题。

但由于K8S集群有监控，它自动会将挂掉的服务节点kill掉，并且在容器中重新部署了一个新的服务节点，幸好对用户没造成太大的影响。

10、在debug

我们有时候需要在本地开发工具，比如：idea中，直接连接测试环境的数据库，调试某个API接口的业务逻辑。

因为在开发环境，某些问题不太好复现。

为了排查某个bug，你在请求某个本地接口时，开启了debug模式，一行行的跟踪代码，排查问题。

走到某一行代码的时候，停留了很长一段时间，该行代码主要是更新某条数据。

此时，测试同学在相关的业务页面中，操作更新了相同的数据。

这种也可能会出现数据库死锁的问题。

由于你在idea的debug模式中，一直都没有提交事务，会导致死锁的时间变得很长，从而导致业务页面请求的API接口出现超时问题。

一篇篇带 span style color 数据库其他数据库 $接口突然超时

有关一篇带你了解接口突然超时十宗罪的更多相关文章

ruby - 简单获取法拉第超时 - 2
有没有办法在这个简单的get方法中添加超时选项？我正在使用法拉第3.3。Faraday.get(url)四处寻找，我只能先发起连接后应用超时选项，然后应用超时选项。或者有什么简单的方法？这就是我现在正在做的:conn=Faraday.newresponse=conn.getdo|req|req.urlurlreq.options.timeout=2#2secondsend 最佳答案试试这个:conn=Faraday.newdo|conn|conn.options.timeout=20endresponse=conn.get(url
postman接口测试工具-基础使用教程 - 2
1.postman介绍Postman一款非常流行的API调试工具。其实，开发人员用的更多。因为测试人员做接口测试会有更多选择，例如Jmeter、soapUI等。不过，对于开发过程中去调试接口，Postman确实足够的简单方便，而且功能强大。2.下载安装官网地址:https://www.postman.com/下载完成后双击安装吧，安装过程极其简单，无需任何操作3.使用教程这里以百度为例,工具使用简单，填写URL地址即可发送请求，在下方查看响应结果和响应状态码常用方法都有支持请求方法:getpostputdeleteGet、Post、Put与Delete的作用get：请求方法一般是用于数据查询，
ruby-on-rails - Rails 优雅地处理超时 session ？ - 2
使用rails4，ruby2。我在rails配置中为我的cookiesession设置了30分钟的超时时间。问题是，如果我转到表单，让session超时，然后提交表单，我会收到此ActionController::InvalidAuthenticityToken错误。如何在Rails中优雅地处理这个错误？比如说，重定向到登录屏幕？最佳答案在您的ApplicationController:rescue_fromActionController::InvalidAuthenticityTokendoredirect_tosome_p
Ruby 在 n *milli* 秒后超时一段代码 - 2
在Ruby中，我需要在n毫秒秒后暂停一段代码的执行。我知道RubyTimeout库支持秒的超时:http://ruby-doc.org/stdlib/libdoc/timeout/rdoc/index.html这可能吗？最佳答案只需为超时使用十进制值。n毫秒的示例:Timeout::timeout(n/1000.0){sleep(100)} 关于Ruby在n*milli*秒后超时一段代码，我们在StackOverflow上找到一个类似的问题： https:
ruby - 了解在 Ruby 中与 lambda 一起使用的 inject 行为 - 2
我经常将预配置的lambda插入可枚举的方法中，例如“map”、“select”等。但是“注入(inject)”的行为似乎有所不同。例如与mult4=lambda{|item|item*4}然后(5..10).map&mult4给我[20,24,28,32,36,40]但是，如果我制作一个2参数lambda用于像这样的注入(inject)，multL=lambda{|product,n|product*n}我想说(5..10).inject(2)&multL因为“inject”有一个可选的单个初始值参数，但这给了我......irb(main):027:0>(5..10).inject
ruby-on-rails - 如何测试自己对 Ruby/ROR 的了解？ - 2
是否有self验证的问题列表。看着那个，我可以确定我知道。我应该复习一下。在学习的过程中，我列了一个这样的list，但它只包含我在某处听说过的项目。我需要一段时间才能找到新的东西。最佳答案以下是针对ruby和Rails的一些测试列表。证书名称:RubyonRails谁提供:oDeskIncorporation认证费用:免费网站:https://www.odesk.com/tests/985?pos=0证书名称:RubyonRails提供者:Techgig.com(TimesBusinessSolutionsLimited(T
ruby-on-rails - 了解 "attribute_will_change!"方法 - 2
我想覆盖store_accessor的getter。可以查到here.代码在这里:#Fileactiverecord/lib/active_record/store.rb,line74defstore_accessor(store_attribute,*keys)keys=keys.flatten_store_accessors_module.module_evaldokeys.eachdo|key|define_method("#{key}=")do|value|write_store_attribute(store_attribute,key,value)enddefine_met
ruby - 我怎样才能更好地了解/了解更多关于 Ruby 的知识？ - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭9年前。我最近开始学习Ruby，这是我的第一门编程语言。我对语法感到满意，并且我已经完成了许多只教授相同基础知识的教程。我已经写了一些小程序(包括我自己的数组排序方法，在有人告诉我谷歌“冒泡排序”之前我认为它非常聪明)，但我觉得我需要尝试更大更难的东西来理解更多关于Ruby.关于如何执行此操作的任何想法？
ruby-on-rails - 正确了解 Rails 框架的最佳方式是什么？ - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭10年前。我一直在Rails上做两个项目，它们运行良好，但在这个过程中重新发明了轮子，自来水(和热水)和止痛药，正如我随后了解到的那样，这些已经存在于框架中。那么基本上，正确了解框架中所有智能部分的最佳方法是什么，这将节省时间而不是自己构建已经实现的功能？从第1页开始阅读文档？是否有公开所有内容的特定示例应用程序？一个特定的开源项目？所有的rails交通？还是完全
ruby - 了解 Ruby Enumerable#map(具有更复杂的 block ) - 2
假设我有一个函数defodd_or_evennifn%2==0return:evenelsereturn:oddendend我有一个简单的可枚举数组simple=[1,2,3,4,5]然后我用我的函数在map中运行它，使用一个do-endblock:simple.mapdo|n|odd_or_even(n)end#=>[:odd,:even,:odd,:even,:odd]如果不首先定义函数，我怎么能做到这一点？例如，#doesnotworksimple.mapdo|n|ifn%2==0return:evenelsereturn:oddendend#Desiredresult:#=>[