• 售前

  • 售后

热门帖子
入门百科

SQL语句中JOIN的用法场景分析

[复制链接]
风吹吹蛋蛋疼风w 显示全部楼层 发表于 2021-8-14 14:54:19 |阅读模式 打印 上一主题 下一主题
记载:256
写SQL最高境界:SELECT * FROM 表名。固然这是一句自嘲。探究一下SQL语句中JOIN的用法,直到履历这个场景,变得想验证一下毕竟。
一、场景

把关系型数据库A中表TEST_TB01和TEST_TB02迁移到大数据平台M(MaxCompute大数据平台)。TEST_TB01单表1000万条记载,TEST_TB02单表80万条记载。
在关系型数据库中,TEST_TB01和TEST_TB02中有主键束缚。在产生新增业务数据时,不会存在重复数据插入。但是,当数据迁移到大数据平台后,由于在大数据平台中无主键束缚功能。在产生新增业务数据时,TEST_TB01和TEST_TB02均均插入了重复数据。
在一个盘算任务中,TEST_TB01和TEST_TB02根据某个字段JOIN连接,盘算出了一份效果数据,数据推送到利用方的关系型数据库C。直接导致了C数据库的对应表的表空间撑爆,监控预警。
缘故因由:TEST_TB01和TEST_TB02有重复数据,利用JOIN连接后,天生了10亿+条数据,共计200G+数据,直接推送到C数据库。
那次思量不周,刹时懵了,感觉SQL语句中的JOIN变得陌生极了。于是想探究一下以作记载。
二、建表

TEST_TB01建表语句:
  1. create table TEST_TB01
  2. (
  3.   sensor_id   BIGINT,
  4.   part_id     BIGINT
  5. )
  6. COMMENT '数据表一';
复制代码
TEST_TB02建表语句:
  1. create table TEST_TB02
  2. (
  3.   part_id    BIGINT,
  4.   elem_id    BIGINT
  5. )
  6. COMMENT '数据表二';
复制代码
三、SQL语句中利用JOIN无重复数据环境

在SQL语句中利用JOIN无重复数据环境,即在TEST_TB01和TEST_TB02表中均无重复数据环境。分别利用JOIN、INNER JOIN、LEFT JOIN、LEFT OUTER JOIN、RIGHT JOIN、FULL JOIN验证。
在TEST_TB01插入数据:
  1. insert into TEST_TB01 (sensor_id,part_id) values(2101,9911);
  2. insert into TEST_TB01 (sensor_id,part_id) values(2102,9912);
  3. insert into TEST_TB01 (sensor_id,part_id) values(2103,9913);
  4. insert into TEST_TB01 (sensor_id,part_id) values(2104,9914);
  5. insert into TEST_TB01 (sensor_id,part_id) values(2105,9915);
复制代码
在TEST_TB02插入数据:
  1. insert into TEST_TB02 (part_id,elem_id) values(9911,8901);
  2. insert into TEST_TB02 (part_id,elem_id) values(9912,8902);
  3. insert into TEST_TB02 (part_id,elem_id) values(9913,8903);
  4. insert into TEST_TB02 (part_id,elem_id) values(9916,8906);
复制代码
查看TEST_TB01数据:

查看TEST_TB02数据:

1.在SQL中利用JOIN
TEST_TB01和TEST_TB02根据part_id利用JOIN连接,只返回两个表(TEST_TB01和TEST_TB02)中连接字段相称的记载。
SQL语句:
  1. SELECT
  2.   *
  3. FROM
  4.   TEST_TB01 aa
  5. JOIN TEST_TB02 bb
  6.     ON aa.part_id = bb.part_id
  7. ORDER BY aa.sensor_id ASC;
复制代码
实验效果:

2.在SQL中利用INNER JOIN
TEST_TB01和TEST_TB02根据part_id利用INNER JOIN连接,只返回两个表(TEST_TB01和TEST_TB02)中连接字段相称的记载。INNER JOIN和JOIN效果等价。
SQL语句:
  1. SELECT
  2.   *
  3. FROM
  4.   TEST_TB01 aa
  5. INNER JOIN TEST_TB02 bb
  6.     ON aa.part_id = bb.part_id
  7. ORDER BY aa.sensor_id ASC;
复制代码
实验效果:

3.在SQL中利用LEFT JOIN
TEST_TB01和TEST_TB02根据part_id利用LEFT JOIN连接,左连接,返回左表(TEST_TB01)中全部的记载以及右表(TEST_TB02)中连接字段相称的记载。
SQL语句:
  1. SELECT
  2.   *
  3. FROM
  4.   TEST_TB01 aa
  5. LEFT JOIN TEST_TB02 bb
  6.     ON aa.part_id = bb.part_id
  7. ORDER BY aa.sensor_id ASC;
复制代码
实验效果:

4.在SQL中利用LEFT OUTER JOIN
TEST_TB01和TEST_TB02根据part_id利用LEFT OUTER JOIN连接,左外连接,返回左表(TEST_TB01)中全部的记载以及右表(TEST_TB02)中连接字段相称的记载。LEFT OUTER JOIN
和LEFT JOIN等价。
SQL语句:
  1. SELECT
  2.   *
  3. FROM
  4.   TEST_TB01 aa
  5. LEFT OUTER JOIN TEST_TB02 bb
  6.     ON aa.part_id = bb.part_id
  7. ORDER BY aa.sensor_id ASC;
复制代码
实验效果:

5.在SQL中利用RIGHT JOIN
TEST_TB01和TEST_TB02根据part_id利用RIGHT JOIN连接,右连接,返回右表(TEST_TB02)中全部的记载以及左表(TEST_TB01)中连接字段相称的记载
SQL语句:
  1. SELECT
  2.   *
  3. FROM
  4.   TEST_TB01 aa
  5. RIGHT JOIN TEST_TB02 bb
  6.     ON aa.part_id = bb.part_id
  7. ORDER BY aa.sensor_id ASC;
复制代码
实验效果:

6.在SQL中利用FULL JOIN
TEST_TB01和TEST_TB02根据part_id利用FULL JOIN连接,外连接,返回两个表中的行:LEFT JOIN + RIGHT JOIN全部行记载。
SQL语句:
  1. SELECT
  2.   *
  3. FROM
  4.   TEST_TB01 aa
  5. FULL JOIN TEST_TB02 bb
  6.     ON aa.part_id = bb.part_id
  7. ORDER BY aa.sensor_id ASC;
复制代码
实验效果:

四、SQL语句中利用JOIN有重复数据环境

在SQL语句中利用JOIN有重复数据环境,即在TEST_TB01和TEST_TB02表中均有重复数据环境。分别利用JOIN、INNER JOIN、LEFT JOIN、LEFT OUTER JOIN、RIGHT JOIN、FULL JOIN验证。
在TEST_TB01插入数据:
  1. insert into TEST_TB01 (sensor_id,part_id) values(2101,9911);
  2. insert into TEST_TB01 (sensor_id,part_id) values(2102,9912);
  3. insert into TEST_TB01 (sensor_id,part_id) values(2103,9913);
  4. insert into TEST_TB01 (sensor_id,part_id) values(2104,9914);
  5. insert into TEST_TB01 (sensor_id,part_id) values(2105,9915);--造重复数据insert into TEST_TB01 (sensor_id,part_id) values(2102,9912);insert into TEST_TB01 (sensor_id,part_id) values(2103,9913);
复制代码
在TEST_TB02插入数据:
  1. insert into TEST_TB02 (part_id,elem_id) values(9911,8901);
  2. insert into TEST_TB02 (part_id,elem_id) values(9912,8902);
  3. insert into TEST_TB02 (part_id,elem_id) values(9913,8903);
  4. insert into TEST_TB02 (part_id,elem_id) values(9916,8906);--造重复数据insert into TEST_TB02 (part_id,elem_id) values(9912,8902);insert into TEST_TB02 (part_id,elem_id) values(9913,8903);
复制代码
查看TEST_TB01数据:

查看TEST_TB02数据:

1.在SQL中利用JOIN
TEST_TB01和TEST_TB02根据part_id利用JOIN连接,只返回两个表(TEST_TB01和TEST_TB02)中连接字段相称的记载。
SQL语句:
  1. SELECT
  2.   *
  3. FROM
  4.   TEST_TB01 aa
  5. JOIN TEST_TB02 bb
  6.     ON aa.part_id = bb.part_id
  7. ORDER BY aa.sensor_id ASC;
复制代码
实验效果:

2.在SQL中利用INNER JOIN
TEST_TB01和TEST_TB02根据part_id利用INNER JOIN连接,只返回两个表(TEST_TB01和TEST_TB02)中连接字段相称的记载。INNER JOIN和JOIN效果等价。
SQL语句:
  1. SELECT
  2.   *
  3. FROM
  4.   TEST_TB01 aa
  5. INNER JOIN TEST_TB02 bb
  6.     ON aa.part_id = bb.part_id
  7. ORDER BY aa.sensor_id ASC;
复制代码
实验效果:

3.在SQL中利用LEFT JOIN
TEST_TB01和TEST_TB02根据part_id利用LEFT JOIN连接,左连接,返回左表(TEST_TB01)中全部的记载以及右表(TEST_TB02)中连接字段相称的记载。
SQL语句:
  1. SELECT
  2.   *
  3. FROM
  4.   TEST_TB01 aa
  5. LEFT JOIN TEST_TB02 bb
  6.     ON aa.part_id = bb.part_id
  7. ORDER BY aa.sensor_id ASC;
复制代码
实验效果:

4.在SQL中利用LEFT OUTER JOIN
TEST_TB01和TEST_TB02根据part_id利用LEFT OUTER JOIN连接,左外连接,返回左表(TEST_TB01)中全部的记载以及右表(TEST_TB02)中连接字段相称的记载。LEFT OUTER JOIN
和LEFT JOIN等价。
SQL语句:
  1. SELECT
  2.   *
  3. FROM
  4.   TEST_TB01 aa
  5. LEFT OUTER JOIN TEST_TB02 bb
  6.     ON aa.part_id = bb.part_id
  7. ORDER BY aa.sensor_id ASC;
复制代码
实验效果:

5.在SQL中利用RIGHT JOIN
TEST_TB01和TEST_TB02根据part_id利用RIGHT JOIN连接,右连接,返回右表(TEST_TB02)中全部的记载以及左表(TEST_TB01)中连接字段相称的记载
SQL语句:
  1. SELECT
  2.   *
  3. FROM
  4.   TEST_TB01 aa
  5. RIGHT JOIN TEST_TB02 bb
  6.     ON aa.part_id = bb.part_id
  7. ORDER BY aa.sensor_id ASC;
复制代码
实验效果:

6.在SQL中利用FULL JOIN
TEST_TB01和TEST_TB02根据part_id利用FULL JOIN连接,外连接,返回两个表中的行:LEFT JOIN + RIGHT JOIN全部行记载。
SQL语句:
  1. SELECT
  2.   *
  3. FROM
  4.   TEST_TB01 aa
  5. FULL JOIN TEST_TB02 bb
  6.     ON aa.part_id = bb.part_id
  7. ORDER BY aa.sensor_id ASC;
复制代码
实验效果:

五、SQL中利用JOIN有重复与无重复数据区别

在SQL语句中利用JOIN有重复数据环境,利用JOIN连接,符合连接字段相称的记载的效果集是笛卡尔积,第一个表的行数乘以第二个表的行数。
六、办理方式

1.先去重再利用JOIN连接
根据业务规则先对TEST_TB01和TEST_TB02分别去重再利用JOIN连接。
2.先利用JOIN连接再去重
根据业务规则先对TEST_TB01和TEST_TB02利用JOIN连接天生效果集,再对效果集去重。
3.发起
在生产环境特别是数据量大场景,推荐利用第一种方式,先逐个表去重再利用JOIN连接。
七、关系型数据库验证表结构

本例是在DataWorks环境(即MaxCompute大数据平台)下验证,即在关系型数据库验证除表结构差别,其它均相同。
在ORACLE数据库建表语句:
  1. create table TEST_TB01
  2. (
  3.   sensor_id  NUMBER(16),
  4.   part_id  NUMBER(16)
  5. );
  6. create table TEST_TB02
  7. (
  8.   part_id  NUMBER(16),
  9.   elem_id  NUMBER(16)
  10. );
复制代码
在MySQL数据库建表语句:
  1. CREATE TABLE TEST_TB01
  2. (
  3.   sensor_id  BIGINT,
  4.   part_id  BIGINT
  5. );
  6. CREATE TABLE TEST_TB02
  7. (
  8.   part_id  BIGINT,
  9.   elem_id  BIGINT
  10. );
复制代码
以上,感谢。
到此这篇关于SQL语句中JOIN的用法的文章就先容到这了,更多相关SQL JOIN的用法内容请搜索脚本之家从前的文章或继续欣赏下面的相关文章盼望大家以后多多支持脚本之家!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

帖子地址: 

回复

使用道具 举报

分享
推广
火星云矿 | 预约S19Pro,享500抵1000!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

草根技术分享(草根吧)是全球知名中文IT技术交流平台,创建于2021年,包含原创博客、精品问答、职业培训、技术社区、资源下载等产品服务,提供原创、优质、完整内容的专业IT技术开发社区。
  • 官方手机版

  • 微信公众号

  • 商务合作