预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

如何使用Scrum敏捷方法,快速搭建数据集市?数据仓库自最早1988年被提出来,开展至今也有几十年了。从数仓1.0到数仓4.0,从关系型数据库到大数据仓库。现如今,数据集市和数据湖以及湖仓一体化是业界研发和开展的重要方向。数仓的建设有一套业界成熟的方法论,但数据集市如何建设各家企业众说纷纭。作为数据产品经理,对数据仓库和数据集市等技术领域也并不会陌生,企业在搭建数据集市过程中往往会因为流程和工程管理的问题导致数据集市可用度不高以及业务价值较低。那如何更高效搭建一套面向业务应用场景的数据集市?是否可以将产品敏捷方法论快速高效地应用在数据集市的搭建上?.数据仓库和数据集市数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理层和业务层的经营分析和业务决策制定。数据仓库用于支持决策,面向分析型数据处理,为了进行OLAP,把分布在各个散落独立的数据库孤岛整合在了一个数据结构里面,称之为数据仓库。有了数据仓库,为什么还需要数据集市呢?我们看看数据集市是为了解决什么问题。数据集市可以理解为是一种"小型数据仓库〃,它只包含单个主题,且关注范围也非全局。数据集市可以分为两种:•一种是独立数据集市,这类数据集市有自己的源数据库和ETL架构;•另一种是非独立数据集市,这种数据集市没有自己的源系统,它的数据来自数据仓库。数据集市是一个结构概念,它是企业级数据仓库的一个子集,主要面向部门级业务,并且只面向某个特定的主题。数据集市是数仓之上更聚焦的业务主题合集,更偏向于应对业务数据快速高效应用的需求,一般用于商业智能系统中探索式和交互式数据分析应用。.产品敏捷方法论现在绝大局部互联网公司都在使用敏捷开发,最流行也最成熟的敏捷开发框架当属Scrum。这里简单介绍下Scrum的三个重要角色和三个重要概念。Scrum中的人员分为3个重要角色:产品所有者(ProductOwner),ScrumMaster(敏捷教练),开发团队(DevTeam)。三个重要概念:Sprint,ProductBacklog,SprintBacklogoSprint:一个冲刺或迭代周期,一般2~4周,是一个可以交付验收的产品需求功能集合;ProductBacklog:产品需求集合,是产品规划中所有的需求点;SprintBacklog:每个Sprint的功能需求点,来自于ProductBacklog。一般的Scrum开发流程如下:为什么说数据集市工程特别适合使用Scrum方法来迭代:.数据集市需求划清楚确。集市的业务域和主题域正好对应Scrum的Story和Sprint..做出来的集市宽表是否有用,可以在某个业务域内先做一张,快速验证效果。.每个宽表的产出时间周期相对好评估,整体工程风险可控。针对面向主题域的数据集市,来看看我们的计划和安排:P0(ProductOwner):数据产品经理。SM(ScrumMaster):数据研发主管。Team(DevTeam):数据架构师,数据研发工程师,数据测试工程师。Story:每个Story可以根据业务域来划分,比方我们划分了资金域,用户域,模型域,市场域,营销域,信审域,风控域,财务域,征信域。Sprint:每个Sprint可以规划一到两张宽表,比方资金域我们规划了借款宽表,还款宽表,其他类似。二,Scrum敏捷方法解决了哪些问题.效率问题以前开发一个主题域的数据集市,需要自顶向下进行建模设计、维度表设计、事实表设计、架构设计、数据表开发、表验证、表测试,完整的瀑布流走下来,几个月过去了,出来了一个大而全的数据集市,交付给分析师和业务。分析师大呼看不懂,查起来还是很慢,很多表还是需要我来JOIN,业务也大呼为什么取个数据这么久,为什么做个分析要一周?基于敏捷方法的数据集市建设,提高了整个生产流程的效率,针对具体的业务场景和分析师的需求,小步快跑地先建设一张或几张宽表,先产出给分析师,再不断调整数据字段,大大缩短了生产建设周期。.MVP验证问题通过小步快跑模式,每个Sprint花费两周,建设1~2张宽表,解决一些核心的分析取数场景,然后再交付验证有价值后进行迭代,增加新的字段,不断进行MVP闭环验证。.业务价值问题直接基于业务分析场景和分析师使用场景来建设,基于怎么用来怎么设计宽表,可以快速验证并产生直接的分析价值和业务价值。相比于传统的自顶向下的瀑布建设流程,不追求大而全的数据集市和数据字段,紧密结合业务场景来进行设计。三,案例提供.工程介绍数据集市工程启动前,已有一套数据仓库,初期只做了两层分层,一层ODS,一层DWD。DWS层表很少几乎可以忽略不计。在业务分析过程中,我们发现很多的分析竟然还是依赖ODS层的表,局部能用到DWD层的表,说明数据仓库分层不明确,违反了数仓和数据集市建设的跨层访问的原那么(一般来说分析