大数据时代这个词被提出已有10年左右了,越来越多的企业已经完成了数字化转型,或在转型中。其普及原因一是因为大数据价值在越来越多的场景中被挖掘,二是因为大数据平台的搭建门槛也越来越低。借助开源的力量,任何有基础研发能力的组织完全可以搭建自己的大数据平台,这里和大家分享0到1搭建方案,以扫盲。
总览

整体大数据平台可以分为存、管、用三部分:
存数据,主要指数据的采集和存储;
管数据,主要指数据仓库内数据模型的搭建和元数据管理;
用数据,主要指使用数据来优化决策是改善用户体验。
我们主要选择Hadoop生态系统为基础,来构建我们的数据平台。
数据流程

如上图所示,从数据源到分析报告或系统应用的过程中,主要包括数据采集同步、数据仓库存储、ETL、统计分析、写入上层DB等环节。这是一条主线,在实际的落地过程中,可能还会有分支的环节出现,比如特征工程。
数据采集
日常的数据来源主要是两块:APP/web访问日志,各业务数据库。这两类数据采集同步到数据仓库的方式有所不同,并且每种数据都分为实时和非实时两种场景。

用户访问我们的产品会产生大量的日志,因此我们需要特定的日志采集系统来采集并输送这些日志。Flume是目前常用的开源选择,Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
继续阅读“人人都可以,从0到1建立大数据平台”