预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

2022年中国企业数智融合发展洞察1.中国企业数智融合发展背景数据量和非结构化数据占比上升统一管理,统一查询使用,成为新的挑战全球数据量以59%以上的年增长率快速增长,其中80%是非结构化和半结构化数据,中国数据量的上升较全球更为迅速。数据量和非结构化数据的上升,使得基于对象存储的数据湖越来越为普及。此时,如何使用统一管理,统一查询使用,成为新的挑战。数据多源异构成为常态数据从“汇聚才可被用”到“链接即可被用”在传统数仓中,多源数据经ETL过程并集中入仓,方可被使用。该方式有许多不足:第一,因有复杂的ETL过程及大量数据的传输,数据实时性难以保障,因此分析常必须T+1才可完成;第二,数据的全量存储和存储成本之间难以取舍,因此必须提前抉择保留哪些数据,随着数据种类的逐渐增多,这很难做到;第三,对于异常值的下钻、回溯等,无法回溯到最为原始的数据。随着应用场景的增多,数据库的种类也逐渐丰富,如更适应物联网场景的时序数据库、更适应知识谱图应用的图数据库,等等。综上,多源异构、分布存储、现用现传、统一查询与应用的架构,逐渐被敏捷型企业认可。大数据的5V价值有待进一步释放可从平台性工具入手,进而解决思维和技能的问题大数据5V特性大数据产业作为以数据生成、采集、存储、加工、分析、服务为主的战略性新兴产业,提供全链条技术、工具和平台,孕育数据要素市场主体,深度参与数据要素全生命周期活动,是激活数据要素潜能的关键支撑,是数据要素市场培育的重要内容。目前,大数据产业仍存在数据壁垒突出、碎片化问题严重等瓶颈约束,大数据容量大、类型多、速度快、精度准、价值高的5V特性未能得到充分释放。这其中既有思维、技能的要素,又有工具的要素,三者也并非割裂存在,一般来说,性能稳定、简单易用的全链条平台工具有助于消除思维的“不敢”和技能的“不会”,化解掉5V特性释放的原始阻力,使得大数据更加普适化。云原生:从微服务走向Serverless从PaaS到FaaS,基础设施被更深层次地托管和“屏蔽”当前,微服务的生态和实践已经比较成熟,其设计方法、开发框架、CI/CD工具、基础设施管理工具等,都可以帮助企业顺利实施,然而其仍有许多不足:(1)粒度仍然比较大。(2)开发仍有较高门槛。(3)微服务基础设施管理、高可用和弹性仍然很难保证。(4)基础设施的成本依然较高。而Serverless中,开发者不再需要将时间和资源花费在服务器调配、维护、更新、扩展和容量规划上,这些任务都由平台处理,开发者只需要专注于编写应用程序的业务逻辑。如果再结合低零代码,则“编写应用程序”的难度也大为降低,企业内的技术人员更加贴近业务。人工智能:需要大规模准确数据哺育人工智能应用引发数据治理需求企业在部署AI应用时,数据资源的优劣极大程度决定了AI应用的落地效果。因此,为推进AI应用的高质量落地,开展针对性的数据治理工作为首要且必要的环节。而对于企业本身已搭建的传统数据治理体系,目前多停留在对于结构性数据的治理优化,在数据质量、数据字段丰富度、数据分布和数据实时性等维度尚难满足AI应用对数据的高质量要求。为保证AI应用的高质效落地,企业仍需进行面向人工智能应用的二次数据治理工作。业务敏捷需要IT架构“去过程化”通过抽象解耦、水平扩展、自动化与智能化实现去过程化VUCA时代,市场变化加速,通过数据来分析和决策的需求,也有了更高的不确定性。当这些需求提出,通过一套复杂的IT流程和漫长的等待,变得不再现实,IT架构的去过程化变得极为重要。去过程化是指减少或完全去掉原始数据/原子能力与业务需求之间的中间数据/步骤,或使中间数据/步骤无须人为干预,自动化、智能化完成。其可实现架构的简单化、扁平化,同时可对业务需求实时响应,以进一步实现敏捷和创新。架构一开始就放弃“精细梳理方可使用”以及“梳理完成千万别动”思想,用全量原始数据保障读时模式,有助于打破“僵”与“乱”的悖论,使得企业用更少的“能量”便可以维持数字化系统的持续运行。2.企业数智融合的痛点及应对痛点一:数据量-成本-效率难以兼得不可能三角需要更高维的技术去打破在传统架构中,数据量、存储成本和计算效率是一组不可能三角。如果不考虑数据量和数据类型,那么一个传统的数仓或者单体的DBMS即可满足;不考虑计算效率,那么基于HDFS或者公有云对象存储即可满足,当下价格仅约0.1元/G/月,并持续下降,归档存储等价格更低;不考虑存储成本,可使用非易失性存储,其拥有一般硬盘的无限容量和断电保护特性,却有接近于内存的性能。应对一:存储-缓存-计算三层分离以内存为中心的架构,在大数据量下降低成本、保持性能为了使数据充分共享,降低均摊成本且打破数据孤岛,存算分离架构产生,存储和计算各自弹性伸缩,按需使用。但此时,因存储拉远,IO成为瓶颈,性能有所下降,因此需要缓存层来存储高I