hive中的几种join到底有什么区别（hive中join的用法）新鲜出炉

文章摘要

这篇文章介绍了Hive中几种常见的JOIN操作的区别，包括左连接（left join）、连接（join）、全连接（full join）、笛卡尔积（join by on=1）、UNION和UNION ALL。以下是总结： 1. **左连接（left join）** 保留左边表中所有数据，右边表中没有匹配值的行用NULL表示。例如： ```sql SELECT * FROM jn1 LEFT JOIN jn2 ON jn1.name = jn2.name; ``` 2. **连接（join）** 只返回两边表中都有匹配值的行。例如： ```sql SELECT * FROM jn1 JOIN jn2 ON jn1.name = jn2.name; ``` 3. **全连接（full join）** 匹配所有行的组合，可能导致笛卡尔积结果。例如： ```sql SELECT * FROM jn1 FULL JOIN jn2 ON jn1.name = jn2.name; ``` 4. **笛卡尔积（join by on=1）** 会生成所有可能的行组合，可能导致大量重复数据。例如： ```sql SELECT * FROM jn1 JOIN jn2 ON 1=1; ``` 5. **UNION vs. UNION ALL** - UNION会去重，结果保留唯一值。 - UNION ALL不会去重，结果包含所有值。示例： ```sql SELECT * FROM jn1 UNION SELECT * FROM jn2; ``` ```sql SELECT * FROM jn1 UNION ALL SELECT * FROM jn2; ``` 总结：左连接保留左边数据，连接返回匹配数据，全连接生成所有组合，笛卡尔积可能产生大量数据。UNION会去重，UNION ALL不会去重。建议根据场景选择合适的JOIN操作。

目录数据：1. left join2. join3. full join4. Join…on 1=15. union6. union allunion和union all的区别总结

hive中，几种join的区别

tom,1

jey,2

lilly,7

lilly,8

tom,1

lilly,3

may,4

bob,5

以上两个为数据，没有什么意义，全是为了检测join的使用

看一下两张表，其实可以看出来，在name一行有重复的，也有不重复的，在id一行1表完全包含2表

left join会把左边的表所有数据列出来，当左边表有而右边表没有的时候，就会用null代替

select *
from jn1
left join jn2
on jn1.name=jn2.name;

jn1.name jn1.id jn2.name jn2.id

tom 1 tom 1

jey 2 NULL NULL

lilly 7 lilly 3

lilly 8 lilly 3

而右表有左表没有的就不会显示了

join会把两个表共有的部分筛选出来

select *
from jn1
join jn2
on jn1.name=jn2.name;

jn1.name jn1.id jn2.name jn2.id

tom 1 tom 1

lilly 7 lilly 3

lilly 8 lilly 3

可以看到，共有的部分筛选了出来

会把两者没有的有的全部数据都选出来，没有的显示空值

select *
from jn1
full join jn2
on jn1.name=jn2.name;

jn1.name jn1.id jn2.name jn2.id

tom 1 tom 1

NULL NULL bob 5

jey 2 NULL NULL

lilly 7 lilly 3

lilly 8 lilly 3

NULL NULL may 4

这种情况会有笛卡尔积的产生，就是表1的每一行都会和表2匹配一下，这样就会产生指数级的增长

select *
from jn1
join jn2
on 1=1;

jn1.name jn1.id jn2.name jn2.id

tom 1 lilly 3

tom 1 bob 5

tom 1 may 4

tom 1 tom 1

jey 2 lilly 3

jey 2 bob 5

jey 2 may 4

jey 2 tom 1

lilly 7 lilly 3

lilly 7 bob 5

lilly 7 may 4

lilly 7 tom 1

lilly 8 lilly 3

lilly 8 bob 5

lilly 8 may 4

lilly 8 tom 1

会把查询结果拼接起来，但是要求两个查询结果的行数必须保持一致

否则会报错

FAILED: SemanticException Schema of both sides of union should match

select *
from jn1
union
select *
from jn2;

_u1.name _u1.id

jey 2

lilly 7

bob 5

lilly 3

lilly 8

tom 1

may 4

union会组合起来，那么union all可以不

select *
from jn1
union all
select *
from jn2;

lilly 3

tom 1

may 4

bob 5

tom 1

jey 2

lilly 7

lilly 8

从上述的两个结果就可以看出来了两者的区别，union会自动去重处理，所以结果把重复的数据去掉了，而union all则不会去重。

注意tips：left join会用之后，right join不用说了吧

到此这篇关于hive中的几种join到底有什么区别的文章就介绍到这了,更多相关hive的join区别内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

随心笔谈

文章版权归作者所有，未经允许请勿转载。

Redis的setNX分布式锁超时时间失效 -1问题及解决（redis中的set命令）太疯狂了

随心笔谈

3年前

3570

Access数据库提示OleDbException (0x80004005)：操作必须使用一个可更新的查询（access2007数据库是一个独立的文件,其扩展名为）奔走相告

随心笔谈

3年前

4040

ASP.NET Core实现中间件的几种方式（aspnetcore框架揭秘pdf）越早知道越好

随心笔谈

3年前

3890

Ajax登陆使用Spring Security缓存跳转到登陆前的链接（ajax实现登录）一篇读懂

随心笔谈

3年前

3970

hive中的几种join到底有什么区别（hive中join的用法）新鲜出炉

文章摘要

Hive中常用正则表达式的运用小结（hive正则表达式详解）干货分享

hive内部表和外部表的区别详解（简述hive内部表和外部表区别）奔走相告

相关文章

Redis的setNX分布式锁超时时间失效 -1问题及解决（redis中的set命令）太疯狂了

Access数据库提示OleDbException (0x80004005)：操作必须使用一个可更新的查询（access2007数据库是一个独立的文件,其扩展名为）奔走相告

ASP.NET Core实现中间件的几种方式（aspnetcore框架揭秘pdf）越早知道越好

Ajax登陆使用Spring Security缓存跳转到登陆前的链接（ajax实现登录）一篇读懂

hive中的几种join到底有什么区别（hive中join的用法）新鲜出炉

文章摘要

Hive中常用正则表达式的运用小结（hive正则表达式 详解）干货分享

hive内部表和外部表的区别详解（简述hive内部表和外部表区别）奔走相告

相关文章

Redis的setNX分布式锁超时时间失效 -1问题及解决（redis中的set命令）太疯狂了

Access数据库提示OleDbException (0x80004005)： 操作必须使用一个可更新的查询（access2007数据库是一个独立的文件,其扩展名为）奔走相告

ASP.NET Core实现中间件的几种方式（aspnetcore框架揭秘pdf）越早知道越好

Ajax登陆使用Spring Security缓存跳转到登陆前的链接（ajax实现登录）一篇读懂

Hive中常用正则表达式的运用小结（hive正则表达式详解）干货分享

Access数据库提示OleDbException (0x80004005)：操作必须使用一个可更新的查询（access2007数据库是一个独立的文件,其扩展名为）奔走相告