数仓分层

分层全称译名说明压缩列式存储分区
ODSOperation Data Store原始层原始数据
DIMDimension维度层合并维度表
DWDData Warehouse Detail明细层数据处理、维度建模
DWSData Warehouse Service服务层去主键聚合,得到原子指标
DWTData Warehouse Topic主题层存放主题对象的累积行为
ADSApplication Data Store应用层具体业务指标

命名规范

库名:业务大类表名:分层名_业务细类临时表:temp_表名备份表:bak_表名视图:view_表名(场景:不共享的维度表、即席查询)

分层命名规范说明
ODSods+源类型+源表名+full/ifull:全量同步i:增量同步ods_postgresql_sku_fullods_mysql_order_detail_iods_frontend_log
DIMdim+维度+full/zipfull:全量表zip:拉链表日期维度表没有后缀dim_sku_fulldim_user_zipdim_date
DWDdwd+事实+full/ifull:全量事实i:增量事实
DWSdws+原子指标时间粒度有1d、1h…1d:按1天1h:按1小时dws_page_visitor_1d
DWTdwt_消费者画像
ADSads+衍生指标/派生指标

离线数仓:事实表,维度表,都放Hive实时数仓:原始数据放 Kafka,维度数据 放 HBase,Phoenix


(资料图片仅供参考)

Sqoop 导入数据方式:

逻辑线: 数据流、监控、优化、配置。

Kafka

分层的好处

数据存储策略

离线架构:追求系统的稳定性、考虑到公司未来的发展,数据量一定会变得很大、早期的时间实时业务使用 SparkStreaming(微批次)

实时架构:Kafka集群高可用,数据量小,所有机器存在同一个机房,传输没有问题,

推荐内容