阿里自研数据库 Ocean base实践

苏真
2013.4
1
阿里自研数据库Oceanase实践

课程大纲
 Why OceanBase
 系统架构
 数据模型
 如何使用
2

了解OceanBase的特点
• 恋爱通常是从了解开始的，想用好OceanBase，得先了解它。
• OceanBase设计目标：
 关系型数据库、结构化数据
 分布式、扩展性
 千亿级数据量
 跨行跨表事务
 支持SQL、兼容MYSQL协议

Why OceanBase
• 传统数据库(mysql&oracle)，功能完善，唯一缺点
是数据库本身不可扩展，业务高速增长时需要不
断折库折表、需要TDDL等中间层支持
 OceanBase  RDBMS + Scalability
= 关系数据库：ACID & SQL
> 持续可用 + 水平扩展 + 低成本 + 高性能
< 功能&性能

数据库进化的时代到了
• mysql和oracle为代表的传统数据库
• Nosql很热：hbase，cassandra，mongodb等
遍地开发
• 大数据时代，数据库变革时期正在到来，
谁将占据主流？

现有存储方案对照
7
数
据
规
模
事务与数据一致性
万亿记录
(十PB)
千亿记录
(百TB)
千万记录
(百GB)
十亿记录
(TB)
最终一致单行事务跨行跨表事务
RDBMS
Cassandra
HBase
Megastore
OceanBase
Dynamo
Bigtable

不同数据库的对比
数据库类型代表特点
关系型数据库 mysql,oracle 支持事务、数据一致性好、功能强大，
成熟稳定。但扩展性不足
自主开发 OceanBase 支持事务、SQL。功能上接近关系型数
据库，兼顾扩展性
NoSQL类型 Cassandra、
Hbase
可扩展性好，功能单一；一般不支持
事务、不支持表关联查询、数据一致
性较弱、有些还没有范围查询

数据库选型
• 关于开源数据库OceanBase( http://oceanbase.taobao.org/ )的应用场景：
如果你不需要事务(transaction)，MongoDB等是不错的选择；
如果你的数据量很大，HBase也是不错的选择；
如果你需要事务(transaction)，并且数据量不大，或者你可以接受分库(sharding)
后的事务，关系数据库(例如MySQL)是不错的选择；
如果你需要事务(transaction)，并且数据量比较大(例如1TB~几百TB)，或者虽然目
前数据量不大，但数据增长很快，你希望免除分库分表的麻烦，那么欢迎你选择
OceanBase
参考如标题的等式：OceanBase = transactionality + scalability
9

11
OceanBase设计思路
 数据存储：多机磁盘
 修改增量：单机内存
Data 基线数据
(磁盘)
修改增量
(内存)
Query 数据增删改

物理架构
12
App(Client)
ChunkServer/
MergeServer
ChunkServer/
MergeServer
ChunkServer/
MergeServer
ChunkServer/
MergeServer
RootServer/
UpdateServer
(primary)
RootServer/
UpdateServer
(secondary)
RootServer/
UpdateServer
(read secondary)
meta data
increment data
base data
data merge

13
每日合并：修改增量
 很多数据库每天有明显的访
问低谷(e.g.,2:00am-5:00am)
Data 基线数据修改增量
新的修
改增量
读写事务
照常进行

14
OceanBase系统架构
 使用MySQL客户端，兼容MySQL应用
Update
Server
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
修改增量
应用接口
基线数据
SQL SQL SQL SQL SQL SQL SQL SQL
Root
Server
配置管理

15
OceanBase读写事务
Update
Server
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
修改增量
应用接口
基线数据
SQL SQL SQL SQL SQL SQL SQL SQL
 写事务(UpdateServer)：Redo log + 主备同步
Root
Server
配置管理

16
每日合并期间的query
 使用新或旧基线数据，查询结果一样
Data 基线数据修改增量
新的修
改增量
Query 旧基线旧增量新增量
Query 新基线新增量

水平扩展-CS/MS
 新增服务器：数据自动迁移且对应用透明
 应用不再需要分库分表
 应用不再需要耗费时间配合数据库进行扩容
3
3
3
4
4
4
5
5
5
6
6
6
7
77
8
8
8
0
0
0
2
2 2
1
1
1
服务器

水平扩展-UPS
 备UPS线性扩展
Root
Server
Update
Server
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
修改增量
应用接口
基线数据
Root
ServerHA
Update
Server
Update
Server
Update
Server
Update
Server
Root
Server
配置管理

跨机房容灾
 在二个机房部署主备二个群集，群集之间通过
updateserver的commitlog实现自动同步
Root
Server
Root
Server

持续可用：RS/UPS
 RS/UPS异常，数据不丢，
服务不停
Root
Server
Update
Server
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
修改增量
应用接口
基线数据
Root
ServerHA
Update
Server
Update
Server
Update
Server
Update
Server
Root
Server
配置管理

持续可用：CS
 CS异常，数据不丢，服务不停
3
3
3
4
4
4
5
5
5
6
6
6
7
77
8
8
8
0
0
0
2
2 2
1
1
1
基线数据
服务器(CS)

持续可用：MS
Update
Server
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
MergeServer
ChunkServer
SQ
L
SQ
L
SQ
L
SQ
L
SQ
L
SQ
L
SQ
L
SQ
L
Root
Server
 MS异常，数据不丢，服务不停

持续可用-跨数据中心
 IDC异常，数据不丢，服务不停
SQ
L
SQ
L
SQ
L
SQ
L
SQ
L
SQ
L
SQ
L
SQ
L
Root
Server
Root
Server

持续可用-数据校验
 磁盘读写：每条记录带64位checksum
 网络传输：每个网络包带64位checksum
 每个文件多副本(3~6)：每个文件都有64位checksum
 修改增量多副本(2~N)：每个UPS内存数据都有64位checksum
 Redo log：每条都带checksum及对应于UPS内存的checksum

持续可用-小结
 假设：硬件、软件、人随时可能故障或犯错
 OceanBase目标：用不可靠的硬件和软件提供稳定、持续可用的服务
 年可用率99.999+%(计划内停机属于不可用)
 措施
 配置服务(RS)：HA
 更新增量服务(UPS)：实时热备
 基线数据服务(CS)：数据多副本
 应用接口(MS)：多实例
 跨机房数据同步
 数据正确性：记录/网络包、文件和内存checksum

数据模型
TABLE
sstable
sstable
sstable
chunkserver1
chunkserver2
chunkserver3
chunkserver4
chunkserver5
chunkserver6
sstable
sstable
sstable

数据模型
Primary Key field1 field2 field3 … fieldn
Primary Key:
用于定位记录的唯一标识，不可以重复
数据物理存储按Primary Key排序
Field(字段):
类型：int，double, varchar, datetime,timestamp, create_time,
modify_time.
表，记录，字段，数据类型。数据模型与传统RDBMS一样
记录构成：

基准数据和增量数据
 Oceanbase数据结构
 增量数据：单机B+树
 基准数据：分布式B+树
 新的基准数据 = 老的基准数据 + 增量数据
29
基线数据
(Chunkserver)
增量数据
(Updateserver)

数据分布
30
Updateserver
Chunkserver 4Chunkserver 3Chunkserver 2Chunkserver 1
Rootserver
数据分片
（元数据）
增量数据
（B+树）

实例
33
Create table t1(
c1 int,
c2 int,
c3 varchar(20),
c4 datatime,
c5 int,
c6 createtime,
primary key (c1,c2,c3)
)
C1+C2+C3组成主键，C4,C5,C6为普通字段
C1 C2 C3 C4 C5 C6

实例
34
OK
Select * from t1 where c1=x and c2 =x and c3=‘xxxx’;
Select * from t1 where c1=x and c2=x;
Select * from t1 where c1=x;
Select * from t1 where c1=x and c2=x and c4=x;
Select * from t1 where c1=x and c6=x;
Select sum(c5) where c1=x;
C1 C2 C3 C4 C5 C6

实例
35
NOT OK
Select * from t1 where c2=x and c3 =‘xxxx’;
Select * from t1 where c3=‘xxxx’;
Select * from t1 where c2=x;
Select * from t1 where c5=x ;
更多OceanBase SQL手册参见：
http://oceanbase.alibaba-inc.com/wiki/index.php?title=SQL_User_manual
C1 C2 C3 C4 C5 C6

 Select,update,replace,delete,insert
 where 条件过滤(and, or)
 like
 group by
 having
 order by
 limit,offset
 reverse scan
 aggregate(count,sum,average)
支持的SQL操作

OceanBase应用接口
 应用接口：MySQL兼容 (JDBC/ODBC)
APP
OceanBase
OBSQL客户端库
MySQL
客户端库
PRELOAD

38
感谢聆听
HTTPS://GITHUB.COM/ALIBABA/OCEANBASE

阿里自研数据库 Ocean base实践

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a 阿里自研数据库 Ocean base实践

Similar a 阿里自研数据库 Ocean base实践 (20)

阿里自研数据库 Ocean base实践

Notas del editor