数仓常用平台和框架

### 数仓常用平台和框架

#### 常见架构

- 离线数仓 Flume+Sqoop+Hadoop+Hive+Hbase+Kylin+SuperSet
- 实时数仓 Kafka+Flink+StarRocks+SuperSet

#### 1. 离线数仓

##### 1.1  数据仓库

- *Kylin*

Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表

- 可扩展超快的基于大数据的分析型数据仓库:
    - Kylin 是为减少在 Hadoop/Spark 上百亿规模数据查询延迟而设计
  - 交互式查询能力
    - 通过 Kylin，用户可以与 Hadoop 数据进行亚秒级交互，在同样的数据集上提供比 Hive 更好的性能

![img](https://img1.baidu.com/it/u=3318603632,3859145216&fm=253&fmt=auto&app=138&f=PNG?w=948&h=500)

##### 1.2 日志收集

- Flume

**Flume 是一个cloudera提供的 高可用高可靠，分布式的海量日志收集聚合传输系统。**原名是 **Flume OG** 。

- **FLUM OG** 有三种角色的节点：代理节点（agent）、收集节点（collector）、主节点（master）。 
    - agent 从各个数据源收集日志数据，将收集到的数据集中到 Collector，然后由收集节点汇总存入 HDFS。master 负责管理 agent，collector 的活动。
    - agent、collector 都称为 node，node 的角色根据配置的不同分为 logical node（逻辑节点）、physical node（物理节点）。
    - agent、collector 由 source、sink 组成，代表在当前节点数据是从 source 传送到 sink。

![](/media/202207/2022-07-23_132414_8446000.2509161028144835.png)

- **FLUME NG** Flume NG 取消了集中管理配置的 Master 和 Zookeeper，变为一个纯粹的传输工具。 
    - NG 只有一种角色的节点：代理节点（agent）。

![](/media/202207/2022-07-23_132427_2935920.032510438356848304.png)

##### 1.3 ETL

- Sqoop

Sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具。你可以通过sqoop把数据从数据库（比如mysql,oracle）导入到hdfs中；也可以把数据从hdfs中导出到关系型数据库中。sqoop通过Hadoop的MapReduce导入导出，因此提供了很高的并行性能以及良好的容错性。

##### 1.4 分布式系统

- Hadoop

**Apache Hadoop**是一款支持数据密集型[分布式](https://zh.m.wikipedia.org/wiki/%E5%88%86%E5%B8%83%E5%BC%8F%E8%AE%A1%E7%AE%97)应用程序并以[Apache 2.0许可协议](https://zh.m.wikipedia.org/wiki/Apache%E8%AE%B8%E5%8F%AF%E8%AF%81)发布的[开源](https://zh.m.wikipedia.org/wiki/%E5%BC%80%E6%BA%90)[软件框架](https://zh.m.wikipedia.org/wiki/%E8%BB%9F%E9%AB%94%E6%A1%86%E6%9E%B6)。 它支持在商用硬件构建的大型集群上运行的应用程序。 Hadoop是根据[谷歌公司](https://zh.m.wikipedia.org/wiki/%E8%B0%B7%E6%AD%8C%E5%85%AC%E5%8F%B8)发表的[MapReduce](https://zh.m.wikipedia.org/wiki/MapReduce)和[Google档案系统](https://zh.m.wikipedia.org/wiki/Google%E6%AA%94%E6%A1%88%E7%B3%BB%E7%B5%B1)的论文自行实现而成。 所有的Hadoop模块都有一个基本假设，即硬件故障是常见情况，应该由框架自动处理。 Hadoop框架透明地为应用提供可靠性和数据移动。

- **Hadoop Common** 
    - 这些是其他Hadoop模块所需的Java库和实用程序。这些库提供文件系统和操作系统级抽象，并包含启动Hadoop所需的Java文件和脚本。 
  - **Hadoop YARN** 
    - 这是一个用于作业调度和集群资源管理的框架 。
  - **Hadoop Distributed File System (HDFS™)** 
    - 分布式文件系统，提供对应用程序数据的高吞吐量访问。 
  - **Hadoop MapReduce** 
    - 这是基于YARN的用于并行处理大数据集的系统。

- Hive - 数仓工具

Apache Hive 是可实现大规模分析的分布式容错数据仓库系统。该数据仓库集中存储信息，您可以轻松对此类信息进行分析，从而做出明智的数据驱动决策。Hive 让用户可以利用 SQL 读取、写入和管理 PB 级数据。

Hive 建立在 Apache Hadoop 基础之上，后者是一种开源框架，可被用于高效存储与处理大型数据集。因此，Hive 与 Hadoop 紧密集成，其设计可快速对 PB 级数据进行操作。Hive 的与众不同之处在于它可以利用 Apache Tez 或 MapReduce 通过类似于 SQL 的界面查询大型数据集。

- **快速：**Hive 所采用的数据可通过批处理快速处理 PB 级数据。
  - **熟悉：**Hive 提供非程序员可以使用的熟悉的类似于 SQL 的界面。
  - **可扩展：**Hive 可根据您的需求被轻松分发与扩展。

- Hbase - 分布式数据库

Apache HBase 是一种开源 NoSQL 分布式大数据存储。它可以实现对 PB 级数据的随机、严格一致的实时访问。HBase 可非常高效地处理大型稀疏数据集。

HBase 和 Apache Hadoop 及 Hadoop 生态系统无缝集成，使用 Amazon Elastic MapReduce (EMR) 文件系统或 EMRFS 在 Hadoop 分布式文件系统 (HDFS) 或 Amazon S3 顶部运行。HBase 可针对 Hadoop 作为 Apache MapReduce 框架的直接输入和输出，并且与 Apache Phoenix 搭配使用对 HBase 表进行类似于 SQL 的查询。

- **可扩展：**HBase 所采用的设计可以在数千个服务器中进行扩展，并且管理对 PB 级数据的访问。凭借 Amazon EC2 所具有的弹性，以及 Amazon S3 的可扩展性，HBase 可以处理对大型数据集的在线访问。

- **快速：**HBase 所采用的设计可以在数千个服务器中进行扩展，并且管理对 PB 级数据的访问。凭借 Amazon EC2 所具有的弹性，以及 Amazon S3 的可扩展性，HBase 可以处理对大型数据集的在线访问。

- **容错能力：**HBase 可以将存储在表中的数据分割到集群中的多个主机，单个主机的故障不会对其造成影响。由于数据被存储在 HDFS 或 S3 上，因此它会自动选择运行正常的主机来托管之前由故障主机处理的数据，而此类数据也会被自动转移到线上。

- |                 | **APACHE HIVE**                                              | **APACHE HBASE**                                             |
    | --------------- | ------------------------------------------------------------ | :----------------------------------------------------------- |
    | **功能**        | 类似于 SQL 的查询引擎专为大容量数据存储而设计。支持多种文件格式。 | 通过自定义查询功能提供低延迟分布式键-值存储。数据采用列式存储格式。 |
    | **处理类型**    | 采用 Apache Tez 或 MapReduce 计算框架的批处理。              | 实时处理。                                                   |
    | **延迟**        | 中到高，取决于计算引擎的响应能力。对于相同数据卷，分布式执行模型提供比整体式查询系统（如 RDBMS）更出色的性能。 | 低，但可能不一致。HBase 架构的结构限制可能在密集写入负载期间导致延迟激增。 |
    | **Hadoop 集成** | 在 Hadoop 顶部运行，与 Apache Tez 或 MapReduce 一起使用可进行处理，与 HDFS 或 Amazon S3 一起可进行存储。 | 在 HDFS 或 Amazon S3 顶部运行。                              |
    | **SQL 支持**    | 通过 HiveQL 提供类似于 SQL 的查询功能。                      | 自身不提供 SQL 支持。您可以为 SQL 功能使用 Apache Phoenix。  |
    | **Schema**      | 适用于全部表的定义 Schema。                                  | 无 Schema。                                                  |
    | **数据类型**    | 支持结构化和非结构化数据。为常见的 SQL 数据类型提供原生支持，如 INT、FLOAT 和 VARCHAR。 | 仅支持非结构化数据。由用户定义数据字段到 Java 支持的数据类型的映射。 |

#### 2. 实时数仓

##### 2.1 MPP数据库

在MPP执行框架中，一条查询请求会被拆分成多个物理计算单元，在多机并行执行。每个执行节点拥有独享的资源（CPU、内存）。MPP执行框架能够使得单个查询请求可以充分利用所有执行节点的资源，所以单个查询的性能可以随着集群的水平扩展而不断提升。

- *Hologres*

Hologres是兼容PostgreSQL的一站式实时数据仓库引擎，支持PB级数据多维分析（OLAP）与即席分析（Ad Hoc），支持高并发低延迟的在线数据服务（Serving）。与MaxCompute、Flink、DataWorks深度融合，提供离在线一体化全栈数仓解决方案。

- Doris

Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库，以极速易用的特点被人们所熟知，仅需亚秒级响应时间即可返回海量数据下的查询结果，不仅可以支持高并发的点查询场景，也能支持高吞吐的复杂分析场景。基于此，Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景，用户可以在此之上构建用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。

- 数据源经过各种数据集成和加工处理后，通常会入库到实时数仓 Doris 和离线湖仓（Hive, Iceberg, Hudi 中），Apache Doris 被广泛应用在以下场景中。 ![origin_img_v2_33e733e0-df43-4d69-8047-b8bd90cbbd7g](https://doris.apache.org/zh-CN/assets/images/origin_img_v2_33e733e0-df43-4d69-8047-b8bd90cbbd7g-2ed5ac7fffa3799871d5d33993b1de09.png)

- 报表分析
    - 实时看板 （Dashboards）
    - 面向企业内部分析师和管理者的报表
    - 面向用户或者客户的高并发报表分析（Customer Facing Analytics）。比如面向网站主的站点分析、面向广告主的广告报表，并发通常要求成千上万的 QPS ，查询延时要求毫秒级响应。著名的电商公司京东在广告报表中使用 Apache Doris ，每天写入 100 亿行数据，查询并发 QPS 上万，99 分位的查询延时 150ms。
  - 即席查询（Ad-hoc Query）：面向分析师的自助分析，查询模式不固定，要求较高的吞吐。小米公司基于 Doris 构建了增长分析平台（Growing Analytics，GA），利用用户行为数据对业务进行增长分析，平均查询延时 10s，95 分位的查询延时 30s 以内，每天的 SQL 查询量为数万条。
  - 统一数仓构建 ：一个平台满足统一的数据仓库建设需求，简化繁琐的大数据软件栈。海底捞基于 Doris 构建的统一数仓，替换了原来由 Spark、Hive、Kudu、Hbase、Phoenix 组成的旧架构，架构大大简化。
  - 数据湖联邦查询：通过外表的方式联邦分析位于 Hive、Iceberg、Hudi 中的数据，在避免数据拷贝的前提下，查询性能大幅提升。
  - 其他
    - [Doris 介绍 - Apache Doris](https://doris.apache.org/zh-CN/docs/summary/basic-summary)

- StarRocks

StarRocks 是**新一代极速全场景MPP数据库**。StarRocks 的愿景是能够让用户的**数据分析变得更加简单和敏捷**。用户无需经过复杂的预处理，就可以用 StarRocks 来支持多种数据分析场景的极速分析。

StarRocks 的**架构简洁**，采用了全面向量化引擎，并配备全新设计的 CBO 优化器，**查询速度（尤其是多表关联查询）远超同类产品**。

StarRocks 能很好地支持实时数据分析，并能实现对实时更新数据的高效查询。StarRocks 还支持现代化物化视图，以进一步加速查询。

使用 StarRocks，用户可以灵活构建包括大宽表、星型模型、雪花模型在内的各类模型。

StarRocks 兼容 MySQL 协议，支持标准 SQL 语法，易于对接使用，全系统无外部依赖，高可用，易于运维管理。

- 全新的向量化执行引擎，亚秒级查询延时，单节点每秒可处理多达100亿行数据。强大的MPP执行框架，支持星型模型和雪花模型，综合查询速度比其他产品快10—100倍！ 
  - 新型存储引擎，支持大规模数据实时写入，秒级实时性保证。新型读写并发管理模式，可同时高效处理数据读取和写入。 
  - 灵活的资源分配策略，每秒可支持高达1万以上的并发查询，有效支持数千用户同时进行数据分析。 
  - 基于多种数据模型皆可实现极速分析，快速响应业务变化。根据业务不同要求，可灵活选择预聚合、大宽表和星型/雪花模型，提高构建灵活性。 
  - ![system_architecture](https://docs.starrocks.com/static/27f4727151da96404f566263970c069a/c1b63/1.2-1.png) 
  - 其他
    - [产品特性 @ features @ StarRocks Docs](https://docs.starrocks.com/zh-cn/main/introduction/features)

- ClickHouse

- ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的用于**在线分析处理查询**（OLAP :Online Analytical Processing）**MPP架构**的**列式存储数据库**（DBMS：Database Management System），能够使用 SQL 查询实时生成分析数据报告。ClickHouse的全称是Click Stream，Data WareHouse。

- 其他

- Apache Doris 与 StarRocks 的关系：[对话StarRocks叶谦：新一代MPP数据库有啥不一样?_Apache (sohu.com)](https://www.sohu.com/a/497712194_374240)

##### 2.2 MQ

- *Kafka* 
  - Kafka是由[Apache软件基金会](https://baike.baidu.com/item/Apache%E8%BD%AF%E4%BB%B6%E5%9F%BA%E9%87%91%E4%BC%9A)开发的一个开源流处理平台，由[Scala](https://baike.baidu.com/item/Scala/2462287)和[Java](https://baike.baidu.com/item/Java/85979)编写。Kafka是一种高吞吐量的[分布式](https://baike.baidu.com/item/%E5%88%86%E5%B8%83%E5%BC%8F/19276232)发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。 这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像[Hadoop](https://baike.baidu.com/item/Hadoop)一样的[日志](https://baike.baidu.com/item/%E6%97%A5%E5%BF%97/2769135)数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过[Hadoop](https://baike.baidu.com/item/Hadoop)的并行加载机制来统一线上和离线的消息处理，也是为了通过[集群](https://baike.baidu.com/item/%E9%9B%86%E7%BE%A4/5486962)来提供实时的消息。

##### 2.3 流处理

- Flink

Apache Flink是一个开源的流处理框架，应用于分布式、高性能、高可用的数据流应用程序。可以处理有限数据流和无限数据，即能够处理有边界和无边界的数据流。无边界的数据流就是真正意义上的流数据，所以Flink是支持流计算的。有边界的数据流就是批数据，所以也支持批处理的。不过Flink在流处理上的应用比在批处理上的应用更加广泛，统一批处理和流处理也是Flink目标之一。Flink可以部署在各种集群环境，可以对各种大小规模的数据进行快速计算。

- 一切皆为流

- 事件驱动应用(Event-driven Applications)

- 正确性保证

- 唯一状态一致性(Exactly-once state consistency) 
    - 事件-事件处理(Event-time processing) 
    - 高超的最近数据处理(Sophisticated late data handling)

- 多层api

- 基于流式和批量数据处理的SQL(SQL on Stream & Batch Data) 
    - 流水数据API & 数据集API(DataStream API & DataSet API) 
    - 处理函数 (时间 & 状态)(ProcessFunction (Time & State))

- 易用性

- 部署灵活(Flexible deployment) 
    - 高可用安装(High-availability setup） 
    - 保存点(Savepoints)

- 可扩展性

- 可扩展架构(Scale-out architecture) 
    - 大量状态的支持(Support for very large state) 
    - 增量检查点(Incremental checkpointing)

- 高性能

- 低延迟(Low latency)

- 高吞吐量(High throughput)

- 内存计算(In-Memory computing)

##### 2.4  分布式系统
- Spark
    - Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式，可针对任何规模的数据进行快速分析查询。它提供使用 Java、Scala、Python 和 R 语言的开发 API，支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。您会发现各行业的众多组织都使用它，其中包括 FINRA、Yelp、Zillow、DataXu、Urban Institute 和 CrowdStrike。Apache Spark 已经成为最受欢迎的大数据分布式处理框架之一，在 2017 年拥有 365000 名会定期参加聚会的会员。
        - **快速：**通过内存中缓存和优化的查询执行方式，Spark 可针对任何规模的数据进行快速分析查询。 
        - **开发人员友好：**Apache Spark 原生支持 Java、Scala、R 和 Python，可为您提供多种应用程序构建语言。这些 API 让您的开发人员变得更轻松，因为它们可以将复杂的分布式处理隐藏在简单的高级操作符背后，从而大量减少所需的代码数量。 
        - **多个工作负载：**Apache Spark 自带运行多个工作负载功能，包括交互式查询、实时分析、机器学习和图形处理等。一个应用程序可无缝与多个工作负载整合。 
    - Spark 与 Hadoop对比：
        - 除了 Spark 和 Hadoop MapReduce 的设计差异，很多组织还发现这两个大数据框架之间存在互补性，并且会同时使用二者来克服更广泛的业务挑战。
        - Hadoop 是一种开源框架，它将 Hadoop 分布式文件系统 (HDFS) 用于存储，将 YARN 作为管理由不同应用程序所使用的计算资源的方式，并且实现 MapReduce 编程模型来充当执行引擎。在一般 Hadoop 实现中，还会部署不同的执行引擎，如 Spark、Tez 和 Presto。
        - Spark 是一种专门用于交互式查询、机器学习和实时工作负载的开源框架。它没有自己的存储系统，但会在其他存储系统，如 HDFS，或其他热门存储，如 [Amazon Redshift](https://aws.amazon.com/redshift/)、[Amazon S3](https://aws.amazon.com/s3/)、Couchbase、Cassandra 等之上运行分析。Hadoop 上的 Spark 会利用 YARN 来分享常见的集群和数据集作为其他 Hadoop 引擎，确保服务和响应的一致性水平。
  - 其他：
    - [概述 - Spark 3.3.0 文档 (apache.org)](https://spark.apache.org/docs/latest/)

#### 3. BI

##### 3.1 Superset

Superset是 Airbnb 公司开发的开源的数据分析平台。它功能强大且十分易用，可对接各种数据源，包括很多现代的大数据分析引擎，拥有丰富的图表展示形式，并且支持自定义仪表盘。

![开源bi,superset,redash,metabse,finebi](http://47.98.208.51:10086/media/202207/2022-07-12_223639_419111.jpeg)

**优势分析：**

**劣势分析：**

- 功能性强，可用性弱
- 对非技术人员不友好
- 权限管理有限，只适合小规模使用

##### 3.2 Metabase

Metabase是开发语言以clojure+js为主的开源bi。

![开源bi,superset,redash,metabse,finebi](http://47.98.208.51:10086/media/202207/2022-07-12_223639_515149.png)

**优势分析：**

- 注重非技术人员用户体验，具有一定的自助程度
- 提供了 Native query ，允许用户编写 SQL 或 native query

**劣势分析：**

- 帮助文档过于简单
- 操作的效率低
- 运营创建报表需要从原始数据操作，学习成本上升
- 权限管理系统没有分组嵌套

##### 3.3 Redash

Redash 是在2020 年 6 月 24 日 redash宣布被 Databricks（Spark，Delta Lake所属公司）收购的开源bi。

![开源bi,superset,redash,metabse,finebi](http://47.98.208.51:10086/media/202207/2022-07-12_223639_428841.jpeg)

**优势分析：**

- 理念简单，操作简洁，效率高
- SQL Query可以定制参数

**劣势分析：**

总结来说，**superset更美观，redash效率更高，metabase适合中等规模**，这些开源的bi都是有一定自己的优势和劣势，那有没有更好的选择呢，尤其是能不能解决这些开源bi都有的通病，在管理权限上的缺陷呢，那今天给大家说我发现的一款超级优秀的开源bi——FineBI。

##### 3.4 FineBi

FineBi是由帆软公司打造的一款开源bi。

![开源bi,superset,redash,metabse,finebi](http://47.98.208.51:10086/media/202207/2022-07-12_223639_410093.jpeg)

**优势分析：**

- [可视化](https://www.finebi.com/solutions/dv)选择多，美观丰富
- 主打自助数据集功能，具有高度自助功能
- 操作简单，效率高
- 一键实现数据共享与管控，细致精准的[数据权限管理](https://www.finebi.com/product/functions/management)

##### 3.5 PowerBI