Storage Layer (存储层)
Data Engineering
约 340 字大约 1 分钟
2026-02-04
数据工程是构建和维护数据基础设施的核心技能,涵盖数据存储、计算、查询和调度等多个层面。
数据工程架构层次
Compute Layer (计算层)
Query Layer (查询层)
Scheduling Layer (调度层)
数据工程技术栈
┌─────────────────────────────────────────┐
│ Scheduling Layer (调度层) │
│ Airflow / DolphinScheduler │
└─────────────────────────────────────────┘
↓
┌─────────────────────────────────────────┐
│ Query Layer (查询层) │
│ Hive / Presto / Trino │
└─────────────────────────────────────────┘
↓
┌─────────────────────────────────────────┐
│ Compute Layer (计算层) │
│ Spark / Flink / MapReduce │
└─────────────────────────────────────────┘
↓
┌─────────────────────────────────────────┐
│ Storage Layer (存储层) │
│ HDFS / S3 / HBase / Hive Metastore │
└─────────────────────────────────────────┘典型数据工程流程
- 数据采集 → Kafka/Flume
- 数据存储 → HDFS/S3/HBase
- 数据处理 → Spark/Flink
- 数据查询 → Hive/Presto
- 任务调度 → Airflow/DolphinScheduler
- 数据可视化 → BI 工具
扩展
可结合「数据库」「分布式系统」一起准备:存储、计算、查询的底层原理与优化方法。