Data Lake
什么是 Data Lake
✅ 一句话解释:什么是数据湖? (简单来说数据湖 是存放各种数据的地方)
- 数据湖是一个能存放各种类型数据(结构化、半结构化、非结构化)的超大存储池,用来做大数据分析的。
数据湖 和 MYSQL,Redis数据库的区别
- MYSQL 等数据库 是规则性数据库,存结构化数据, 而数据湖是所有数据都可存储 结构化,半结构化,非结构化 等所有数据
- 例如 MYSQL 不会存图片,视频。而是存的图片,视频的链接。数据湖可以直接存储图片 视频。
- MYSQL 等数据库 是规则性数据库,存结构化数据, 而数据湖是所有数据都可存储 结构化,半结构化,非结构化 等所有数据
数据湖的宏观表现
- 数据湖 其实就是一个文件夹 可以保存类型的数据
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19data-lake/
│
├── ods/ # 原始数据区(Enterprise ODS)
│ ├── mysql/
│ │ ├── user/2025-12-06/user_1.parquet
│ │ ├── order/...
│ ├── log/
│ │ ├── app/2025-12-06/*.log
│ │ ├── nginx/2025-12-06/*.log
│
├── dwd/ # 明细数据区(清洗后的)
│ ├── user/
│ ├── order/
│
├── dws/ # 宽表层(预聚合)
│ ├── order_summary/
│
├── ads/ # 数据应用层(给 BI、可视化)
│ ├── dashboard/ - 对于结构化 半结构化的数据,也可以形成一张表,就像我们平常见到的MySQL表
- 例如这就是一张数据湖的表 但是不能用mysql的查看表结构语法查看 该表,数据湖的表也只支持根据主键id删除或者不删除。

- 当然数据湖的表 也可以执行SQL 但不是用 MySQL 引擎执行的
- 例如这就是一张数据湖的表 但是不能用mysql的查看表结构语法查看 该表,数据湖的表也只支持根据主键id删除或者不删除。
- 数据湖 其实就是一个文件夹 可以保存类型的数据
| 特性 | 说明 |
|---|---|
| 能保存所有类型的数据 | 不要求固定字段 |
| 无限扩展 | TB~PB 级数据 |
| 成本低 | 一般用对象存储(如 MinIO、OSS、S3) |
| 支持数据分析 | 可直接跑 SQL、AI、BI、大屏 |
| 可以外挂计算引擎使用 | 如 Spark、Flink、Presto、Doris |
| 对比项 | 数据湖 | MySQL |
|---|---|---|
| 数据类型 | 所有数据(日志、图片、视频、JSON、CSV、表格) | 结构化表数据 |
| 成本 | 便宜(存储大文件很划算) | 贵(按行记录、索引维护) |
| 查询方式 | Spark / Flink / Presto / SQL on Lake | SQL |
| 写入 | 批量、流式、文件导入 | 行级插入、更新、删除 |
| 适合场景 | 大数据分析、AI、数据仓库、离线批处理 | 业务系统、交易系统、订单、库存等 |
数据湖 与MYSQL的 区别
🆚 一句话区别
MySQL 是在线事务处理(OLTP),数据湖是离线分析处理(OLAP)。
MySQL 适合存业务核心数据,数据湖适合存海量、多格式、不可丢的分析数据。- mysql可以存几千万,一个亿 的书记,但是此时查询会很慢,必须加索引才能使用
- 数据湖可以存几个亿,TB级别的数据,在Spark/Trino 等分布式引擎跑的,也会比较快
| 项目 | 数据湖(Data Lake) | MySQL |
|---|---|---|
| 主要用途 | 大数据分析、AI、离线计算 | 在线业务系统(订单、商品、用户等) |
| 数据格式 | 任意:CSV、JSON、Parquet、图片、视频 | 只能存表结构化数据 |
| 数据规模 | PB 级 | TB 级(再大就扛不住) |
| 查询方式 | Spark/Presto/Flink SQL(分布式) | MySQL 引擎(单机或主从) |
| 事务能力 | 弱(依赖 Hudi/Iceberg) | 强(ACID) |
| 更新/删除 | 慢 | 快 |
| 查询类型 | 批量分析、宽表、报表、BI | 单条、短查询、实时业务 |
| 成本 | 低(对象存储) | 高(数据库存储) |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Little Monste'Blog!
评论




