1. 自我介绍
2. 讲解一下项目
3. 项目中数仓为什么要这样分层。
4. 关于数模比赛项目的问题。xxx
5. 写sql题。
用户访问日志:user_id, device_id, date
求1. 给定时间2024-06-17 用户、设备的数量,都有重复值,都有可能为空
第一次写法:
select
count(distinct user_id) user_cnt
count(distinct device_id) device_cnt
from
t
where date_format(date,'yyyy-MM-dd') = '2024-06-07'
追问这样写会导致什么问题,如何解决?
会导致数据倾斜,先提前过滤空值再使用group by,再套一层直接统计