最近在做数据过程中,没有注意到 union 和 union all的区别,就栽了一个跟头,花了半个小时才找到问题所在。就是忽略了 union 会在hive中做去重的操作导致的。
果然还是太年轻了。
之前在比对数据时,两份结果 ,一份数据量是 10,一份是 20,结果 union 之后变成了28
当时就想到底哪里给差了。
后来一步一步调试才发现问题所在。
很多时候从结果出发,逆向推论 是很简单,因为是你已经知道了结果的前提下进行推测,这里自己还是要好好反思一下,进入字节后有些太飘飘了。目睹了一些大厂的作风后,自己还是要回归本心。