【SQL开发实战技巧】系列（五）：从执行计划看IN、EXISTS 和 INNER JOIN效率，我们要分场景不要死记网上结论

赵延东的一亩三分地 2023-10-21 原文

系列文章目录

文章目录

前言

本篇文章讲解的主要内容是：从执行计划角度分析IN、EXISTS 和 INNER JOIN效率而不是死记网上结论、表的5种关联：INNER JOIN、LEFT JOIN、RIGHT JOIN 和 FULL JOIN 解析
【SQL开发实战技巧】这一系列博主当作复习旧知识来进行写作，毕竟SQL开发在数据分析场景非常重要且基础，面试也会经常问SQL开发和调优经验，相信当我写完这一系列文章，也能再有所收获，未来面对SQL面试也能游刃有余~。

一、组合相关的行

相对查询单表中的数据来说，平时更常见的需求是要在多个表中返回数据。比如，显示部门10的员工编码、姓名及所在部门名称和工作地址。

select a.empno,a.deptno,b.dname
from emp a inner join dept b
on(a.deptno=b.deptno)
where a.deptno=10;
EMPNO DEPTNO DNAME
----- ------ --------------
 7782     10 ACCOUNTING
 7839     10 ACCOUNTING
 7934     10 ACCOUNTING

另外有下面写法：

select a.empno,a.deptno,b.dname
from emp a,dept b
where a.deptno=b.deptno
EMPNO DEPTNO DNAME
----- ------ --------------
 7369     20 RESEARCH
 7499     30 SALES
 7521     30 SALES
 7566     20 RESEARCH
 7654     30 SALES
 7698     30 SALES
 7782     10 ACCOUNTING
 7788     20 RESEARCH
 7839     10 ACCOUNTING
 7844     30 SALES
 7876     20 RESEARCH
 7900     30 SALES
 7902     20 RESEARCH
 7934     10 ACCOUNTING

14 rows selected

其中，JOIN的写法是SQL-92的标准，当有多个表关联时，JOIN方式的写法能更清楚地看清各表之间的关系，因此，建议大家写查询语句时优先使用JOIN的写法。

二、从执行计划看IN、EXISTS 和 INNER JOIN效率

下面先创建一个表 emp2.

drop index IDX_ENAME;
DROP TABLE emp2 PURGE ;
CREATE TABLE emp2 AS
SELECT ename,job,sal,comm FROM emp WHERE job ='CLERK';

要求返回与表emp2(empno,job,sal)中数据相匹配的emp(empno,ename,job,sal,deptno)
信息。
有IN、EXISTS、INNER JOIN三种写法。为了加强理解，请大家看一下三种写法及其PLAN(此处用的是Oracle 11g)。

in写法

SQL> explain plan for select empno,ename,job,sal,deptno from emp where (ename,job,sal) in(select ename,job,sal from emp2);

Explained


SQL> select * from table(dbms_xplan.display());

PLAN_TABLE_OUTPUT
--------------------------------------------------------------------------------
Plan hash value: 4039873364
---------------------------------------------------------------------------
| Id  | Operation          | Name | Rows  | Bytes | Cost (%CPU)| Time     |
---------------------------------------------------------------------------
|   0 | SELECT STATEMENT   |      |     1 |    67 |     6   (0)| 00:00:01 |
|*  1 |  HASH JOIN SEMI    |      |     1 |    67 |     6   (0)| 00:00:01 |
|   2 |   TABLE ACCESS FULL| EMP  |    15 |   780 |     3   (0)| 00:00:01 |
|   3 |   TABLE ACCESS FULL| EMP2 |     4 |    60 |     3   (0)| 00:00:01 |
---------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
   1 - access("ENAME"="ENAME" AND "JOB"="JOB" AND "SAL"="SAL")
Note
-----
   - dynamic statistics used: dynamic sampling (level=2)

19 rows selected

exists写法

SQL>  EXPLAIN PLAN FOR SELECT empno,ename,job,sal,deptno FROM emp a
  2  WHERE EXISTS (SELECT NULL
  3  FROM emp2 b
  4  WHERE b.ename = a.ename AND b.job = a.job
  5  AND b.sal = a.sal) ;

Explained


SQL> select * from table(dbms_xplan.display());

PLAN_TABLE_OUTPUT
--------------------------------------------------------------------------------
Plan hash value: 4039873364
---------------------------------------------------------------------------
| Id  | Operation          | Name | Rows  | Bytes | Cost (%CPU)| Time     |
---------------------------------------------------------------------------
|   0 | SELECT STATEMENT   |      |     1 |    67 |     6   (0)| 00:00:01 |
|*  1 |  HASH JOIN SEMI    |      |     1 |    67 |     6   (0)| 00:00:01 |
|   2 |   TABLE ACCESS FULL| EMP  |    15 |   780 |     3   (0)| 00:00:01 |
|   3 |   TABLE ACCESS FULL| EMP2 |     4 |    60 |     3   (0)| 00:00:01 |
---------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
   1 - access("B"."ENAME"="A"."ENAME" AND "B"."JOB"="A"."JOB" AND
              "B"."SAL"="A"."SAL")
Note
-----
   - dynamic statistics used: dynamic sampling (level=2)

20 rows selected

因为子查询的JOIN列(emp2.ename,emp2.job,ernp2.sal)没有重复行，所以这个查询可以直接改为INNER JOIN。

SQL> EXPLAIN PLAN  FOR  SELECT a.empno,a.ename,a.job,a.sal,a.deptno from emp a
  2  INNER JOIN emp2 b ON (b.ename = a.ename AND b.job = a.job AND b.sal =a.sal);

Explained


SQL> select * from table(dbms_xplan.display());

PLAN_TABLE_OUTPUT
--------------------------------------------------------------------------------
Plan hash value: 166525280
---------------------------------------------------------------------------
| Id  | Operation          | Name | Rows  | Bytes | Cost (%CPU)| Time     |
---------------------------------------------------------------------------
|   0 | SELECT STATEMENT   |      |     4 |   268 |     6   (0)| 00:00:01 |
|*  1 |  HASH JOIN         |      |     4 |   268 |     6   (0)| 00:00:01 |
|   2 |   TABLE ACCESS FULL| EMP2 |     4 |    60 |     3   (0)| 00:00:01 |
|   3 |   TABLE ACCESS FULL| EMP  |    15 |   780 |     3   (0)| 00:00:01 |
---------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
   1 - access("B"."ENAME"="A"."ENAME" AND "B"."JOB"="A"."JOB" AND
              "B"."SAL"="A"."SAL")
Note
-----
   - dynamic statistics used: dynamic sampling (level=2)

20 rows selected

或许与大家想象的不一样，以上三个PLAN中JOIN写法利用了HASH JOIN(哈希连接），其他两种运用的都是HASH JOIN SEMI(哈希半连接），说明在这个语句中的IN与EXISTS效率是一样的。所以，在不知哪种写法高效时应查看PLAN,而不是去记固定的结论。

三、INNER JOIN、LEFT JOIN、RIGHT JOIN 、FULL JOIN、自关联解析

有很多人对这几种连接方式，特别是LEFT JOIN与RIGHT JOIN分不清，下面通过案例来解析一下。
首先建立两个测试用表。

DROP TABLE L PURGE ; DROP TABLE R PURGE;
--左表
CREATE TABLE L AS
SELECT 'left_1'  AS  str ,  '1' AS  v  FROM  dual  UNION  ALL 
SELECT 'left_2'  AS  str ,  '2' AS  v  FROM  dual  UNION  ALL 
SELECT 'left_3'  AS  str ,  '3' AS  v  FROM  dual  UNION  ALL 
SELECT 'left_4'  AS  str ,  '4' AS  v  FROM  dual;
--右表
CREATE TABLE R AS
SELECT 'right_3'  AS  str ,  '3' AS  v,1 as status  FROM  dual  UNION  ALL
SELECT 'right_4'  AS  str ,  '4' AS  v,0 as status  FROM  dual  UNION  ALL
SELECT 'right_5'  AS  str ,  '5' AS  v,0 as status  FROM  dual  UNION  ALL
SELECT 'right_6'  AS  str ,  '6' AS  v,0 as status  FROM  dual;

1、INNER JOIN 的特点

该方式返回两表相匹配的数据，左表的"1、2"以及右表的"5、6"都没有显示。
JOIN写法

SQL> 
SQL> select l.str as left_str, r.str as right_str
  2    from l
  3   inner join r
  4      on (l.v = r.v)
  5   order by 1, 2;

LEFT_STR RIGHT_STR
-------- ---------
left_3   right_3
left_4   right_4

2、LEFTJOIN的特点

该方式的左表为主表，左表返回所有的数据，右表中只返回与左表匹配的数据，"5、6"都没有显示。
join写法：

select l.str as left_str, r.str as right_str
  from l
 left join r
    on (l.v = r.v)
 order by 1, 2;
LEFT_STR RIGHT_STR
-------- ---------
left_1   
left_2   
left_3   right_3
left_4   right_4

加（+）写法

select l.str as left_str, r.str as right_str
  from l, r
    where l.v = r.v(+)
 order by 1, 2;

3、RIGHT JOIN的特点

该方式的右表为主表，左表中只返回与右表匹配的数据"3、4",而"1、2"都没有显示，右表返回所有的数据。
join写法

select l.str as left_str, r.str as right_str
  from l
 right join r
    on (l.v = r.v)
 order by 1, 2;
LEFT_STR RIGHT_STR
-------- ---------
left_3   right_3
left_4   right_4
         right_5
         right_6

加（+）写法

select l.str as left_str, r.str as right_str
  from l, r
    where l.v(+) = r.v
 order by 1, 2;

4、FULL JOIN的特点

该方式的左右表均返回所有的数据，但只有相匹配的数据显示在同一行，非匹配的行只显示一个表的数据。
JOIN写法

select l.str as left_str, r.str as right_str
  from l
 full join r
    on (l.v = r.v)
 order by 1, 2;
LEFT_STR RIGHT_STR
-------- ---------
left_1   
left_2   
left_3   right_3
left_4   right_4
         right_5
         right_6

6 rows selected

FULL JOIN 无(+ )的写法。

5、自关联

表emp中有一个字段mgr,其中是主管的编码（对应于emp.empno),如：
(EMPNO:7698,ENAME:BLAKE)-->(MGR:7839)-->(EMPNO:7839,ENAME:KING),说明BLAKE的主管就是KING
如何根据这个信息返回主管的姓名呢？
这里用到的就是自关联。也就是两次查询表emp,分别取不同的别名，这样就可以当作是两个表，后面的任务就是将这两个表和JOIN连接起来就可以。
为了方便理解，这里用汉字作为别名，并把相关列一起返回。

SELECT 员工.empno AS 职工编码,
       员工.ename AS 职工姓名,
       员工.job   AS 工作,
       员工.mgr   AS 员工表_主管编码,
       主管.empno AS 主管表＿主管编码,
       主管.ename AS 主管姓名
  FROM emp 员工
  LEFT JOIN emp 主管
    ON (员工.mgr = 主管.empno)
 ORDER BY 1;
 职工编码 职工姓名   工作      员工表_主管编码 主管表＿主管编码 主管姓名
----- ---------- --------- -------- -------- ----------
 1001 test                                   
 7369 SMITH      CLERK         7902     7902 FORD
 7499 ALLEN      SALESMAN      7698     7698 BLAKE
 7521 WARD       SALESMAN      7698     7698 BLAKE
 7566 JONES      MANAGER       7839     7839 KING
 7654 MARTIN     SALESMAN      7698     7698 BLAKE
 7698 BLAKE      MANAGER       7839     7839 KING
 7782 CLARK      MANAGER       7839     7839 KING
 7788 SCOTT      ANALYST       7566     7566 JONES
 7839 KING       PRESIDENT                   
 7844 TURNER     SALESMAN      7698     7698 BLAKE
 7876 ADAMS      CLERK         7788     7788 SCOTT
 7900 JAMES      CLERK         7698     7698 BLAKE
 7902 FORD       ANALYST       7566     7566 JONES
 7934 MILLER     CLERK         7782     7782 CLARK

15 rows selected

总结

这一章主要介绍两块，之所以拿出来这两块说是因为：

IN、EXISTS 和 INNER JOIN这三者或则说前两者的效率，博主在日常工作和面试过程中，经常遇到大家斩钉截铁的说in效率远远低于EXISTS 和 INNER JOIN，这类人大都是自己没有亲测，从网上搜了相关信息就记下来了，有些时候，网上的内容并不代表绝对正确，就像网上很多文章说scala的入参不能超过22个参数一样~
其次，表的INNER JOIN、LEFT JOIN、RIGHT JOIN 、FULL JOIN、自关联这5种关联和简写方式，在工作中也很容易出错，所以在写这篇文章时候，博主自己也做个总结~

分场死记 span class token sql in exists效率 left join right join full join

有关【SQL开发实战技巧】系列（五）：从执行计划看IN、EXISTS 和 INNER JOIN效率，我们要分场景不要死记网上结论的更多相关文章

ruby-on-rails - rails : "missing partial" when calling 'render' in RSpec test - 2
我正在尝试测试是否存在表单。我是Rails新手。我的new.html.erb_spec.rb文件的内容是:require'spec_helper'describe"messages/new.html.erb"doit"shouldrendertheform"dorender'/messages/new.html.erb'reponse.shouldhave_form_putting_to(@message)with_submit_buttonendendView本身，new.html.erb，有代码:当我运行rspec时，它失败了:1)messages/new.html.erbshou
ruby-on-rails - Rails 源代码 : initialize hash in a weird way? - 2
在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中，它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has
ruby-on-rails - Rails 3 I18 : translation missing: da. datetime.distance_in_words.about_x_hours - 2
我看到这个错误:translationmissing:da.datetime.distance_in_words.about_x_hours我的语言环境文件:http://pastie.org/2944890我的看法:我已将其添加到我的application.rb中:config.i18n.load_path+=Dir[Rails.root.join('my','locales','*.{rb,yml}').to_s]config.i18n.default_locale=:da如果我删除I18配置，帮助程序会处理英语。更新:我在config/enviorments/devolpment
ruby - 使用 C 扩展开发 rubygem 时，如何使用 Rspec 在本地进行测试？ - 2
我正在编写一个包含C扩展的gem。通常当我写一个gem时，我会遵循TDD的过程，我会写一个失败的规范，然后处理代码直到它通过，等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb，如何运行我的规范并仍然加载我的C扩展？当我更改C代码时，我需要采取哪些步骤来重新编译代码？这可能是个愚蠢的问题，但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时，我确实得到了一个Makefile(在整个项目的根目录中)，然后当
ruby-on-rails - 新 Rails 项目 : 'bundle install' can't install rails in gemfile - 2
我已经像这样安装了一个新的Rails项目:$railsnewsite它执行并到达:bundleinstall但是当它似乎尝试安装依赖项时我得到了这个错误Gem::Ext::BuildError:ERROR:Failedtobuildgemnativeextension./System/Library/Frameworks/Ruby.framework/Versions/2.0/usr/bin/rubyextconf.rbcheckingforlibkern/OSAtomic.h...yescreatingMakefilemake"DESTDIR="cleanmake"DESTDIR="
Ruby Sinatra 配置用于生产和开发 - 2
我已经在Sinatra上创建了应用程序，它代表了一个简单的API。我想在生产和开发上进行部署。我想在部署时选择，是开发还是生产，一些方法的逻辑应该改变，这取决于部署类型。是否有任何想法，如何完成以及解决此问题的一些示例。例子:我有代码get'/api/test'doreturn"Itisdev"end但是在部署到生产环境之后我想在运行/api/test之后看到ItisPROD如何实现？最佳答案根据SinatraDocumentation:EnvironmentscanbesetthroughtheRACK_ENVenvironm
ruby - 是否可以覆盖 gemfile 进行本地开发？ - 2
我们的git存储库中目前有一个Gemfile。但是，有一个gem我只在我的环境中本地使用(我的团队不使用它)。为了使用它，我必须将它添加到我们的Gemfile中，但每次我checkout到我们的master/dev主分支时，由于与跟踪的gemfile冲突，我必须删除它。我想要的是类似Gemfile.local的东西，它将继承从Gemfile导入的gems，但也允许在那里导入新的gems以供使用只有我的机器。此文件将在.gitignore中被忽略。这可能吗？最佳答案设置BUNDLE_GEMFILE环境变量:BUNDLE_GEMFI
ruby - 在 Windows 机器上使用 Ruby 进行开发是否会适得其反？ - 2
这似乎非常适得其反，因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby-mysqlgem问题(gem本身发生段错误，一个名为UnixSocket的类显然在Windows机器上不能正常工作，等等)。我只是在浪费时间吗？我应该转向不同的脚本语言吗？最佳答案我在Windows上使用Ruby的经验很少，但是当我开始使用Ruby时，我是在Windows上，我的总体印象是它不是Windows原生系统。因此，在主要使用Windows多年之后，开始使用Ruby促使我切换回原来的系统Unix，这次是Linux。Rub
ruby-on-rails - 在 Rails 开发环境中为 .ogv 文件设置 Mime 类型 - 2
我正在玩HTML5视频并且在ERB中有以下片段:mp4视频从在我的开发环境中运行的服务器很好地流式传输到chrome。然而firefox显示带有海报图像的视频播放器，但带有一个大X。问题似乎是mongrel不确定ogv扩展的mime类型，并且只返回text/plain，如curl所示:$curl-Ihttp://0.0.0.0:3000/pr6.ogvHTTP/1.1200OKConnection:closeDate:Mon,19Apr201012:33:50GMTLast-Modified:Sun,18Apr201012:46:07GMTContent-Type:text/plain
ruby - Sinatra set cache_control to static files in public folder编译错误 - 2
我不知道为什么，但是当我设置这个设置时它无法编译设置:static_cache_control，[:public，:max_age=>300]这是我得到的syntaxerror,unexpectedtASSOC,expecting']'(SyntaxError)set:static_cache_control,[:public,:max_age=>300]^我只想将“过期”header设置为css、javaascript和图像文件。谢谢。最佳答案我猜您使用的是Ruby1.8.7。Sinatra文档中显示的语法似乎是在Ruby1.