Юрий Трухин (InfoboxCloud)

Распределенные

отказоустойчивые
файловые

системы
HA
DFS

Юрий
Трухин

cloud
compu1ng
expert

План
выступления

Причины

•  Количество
данных
в
дата-‐центрах
растет

•  Требуется
быстрый
доступ
к
данным

•  Требуется
высокая
доступность
данных

•  Гибкость
и
низкая
стоимость

Где
использовать?

•  CDN

•  Бекап
и
архивация

•  Масштабируемые
файловые
сервера

•  HPC

•  IaaS
Storage

•  Хранение
блобов
баз
данных

Устройство
HA
DFS

•  Сервер
данных
(CS):
содержимое
файлов
или
кусков

данных

•  Сервер
метаданных
(MDS):
хранят
информацию
о

данных
и
их
репликах.
При
использовании
кусков

данных
хранит
информацию
о
том,
как
собрать

куски
в
файлы.
Управляет
версиями
и
может

хранить
лог
событий
на
кластере.

•  Клиент:
использует
API
для
управления
данными,

связывается
с
MDS
и
CS

GlusterFS

•  объединяет
существующие
файловые
системы

(рекомендуется
XFS)

•  Включает
в
себя
NFS3
сервер

•  Для
пула
кластера
использовать
/etc/hosts

некрасиво
и
ненадежно.
Используйте
DNS.

•  Рекомендуется
использовать
NTP.

•  Работает
в
UserSpace
через
FUSE.

•  Posix–совместимая
HA
DFS

GlusterFS

•  Считается
хеш
от
имени
файла,
делится
по

модулю
по
кол-‐ву
имеющихся
серверов
для

определения
места.

•  При
переименовании
файла
оставляет
свой

новый
адрес
на
старом
месте.

•  Для
увеличения
числа
файловых
серверов
–

extensible
hashing
(увеличение
значения
хеш-‐
функции
без
пересчета
хешей).

•  Нет
сервера
метаданных.

•  Данные
записываются
сразу
на
несколько
нод.

С
2мя
нодами
не
лучше
rsync.

GlusterFS
Pro

•  Любое
оборудование
без
каприз
(собирается

даже
на
arm)

•  Автоматическое
восстановление
при
сбоях

•  Нет
центрального
сервера

•  Возможно
добавление
нод
по
мере
роста

•  Простая
установка.
Правда.
8
шагов.
Отличная

документация.

подключение
через
стандартные

протоколы
NFS,
SMB/CIFS
или
нативный

клиент.

GlusterFS
Pro

•  На
множестве
серверов
быстрый

произвольный
доступ
к
файлу,
если
файл

читает
небольшое
количество
клиентов.

увеличение
тома
при
добавлении

нового
сервера.

•  Поддерживает
локи
на
файлы
через
posix-‐
locks,
о
которых
сообщает
всем
томам.

•  Поддерживает
асинхронную
георепликацию.

GlusterFS
Contra

•  Без
репликации
потеря
сервера
–
потеря
всех

данных
на
сервере.

•  Если
файл
больше
размера
тома
–
случится

ошибка
записи.

•  Если
файл
не
там,
где
вычислен
хеш
–
будет

долгий
поиск.

•  ls
работает
медленно
тк
нет
сервера

–
нужно
обежать
все
сервера.

Компоненты

•  glusterd
управляет
эластичным
томом,

соответственно
должен
быть
запущен
на
всех

серверах,
где
необходимо
монтировать
FS.

Управляется
через
gluster
cli.

•  glusterfsd
управляет
brick
томами,
по
процессу

на
том.
Управляется
glusterd.

•  glusterfs
занимается
NFS,
FUSE
клиентами
и

обеспечением
здоровья
системы

•  mount.glusterfs
инструмент
для
монтирования

через
FUSE

•  gluster
интерфейс
CLI

Трансляторы

GlusterFS
расширяемый
механизм

трансляторов
(можно
писать
свои).

storage
–
сохраняет
и
получает
данные
из

файловой
системы


cluster
–
распределением
и

репликацией
данных,
записью
и
чтением
из

хранилища
bricks


debug
–
предоставляет
интерфейс
и
статистику
по

ошибкам
для
отладки.

encryp^on
–
на
лету
шифрует/расшифровывает

данные.

protocol
–
аутентификацией
клиента
и

сервера
и
коммуникациями
между
ними.

pеrformance
–
тюнинг
под
нагрузку.


system
–
связывает
хранилище
с
ACL.

sceduler
–
планирует
операции
I/O
для

распределения
новых
записей
по
кластеру.

features
–
доп.
фичи
типа
квот,
фильтров,
локов
и

т.д.

bindings
–
добавляет
расширяемость,
например

есть
реализация
API
для
python.

Падение

1.
Файловая
система
запустит
fsck
на
томе,
далее

gluster
восстановит
данные
из
реплик

автоматически.

2.
В
случае
краха
ноды
добавляем
новую
и
Gluster

размазывает
данные
на
нее.

Гео-‐репликация

Асинхронная
по
модели
master–slave

Slave
может
быть
как
удаленный
каталог,
так
и

volume
gluster.

Предназначена
для
бекапа,
а
не
для
HA

Периодически
проверяет
изменения
и

синхронизирует
их
инкрементально.

Производительность

Запись
с
sync

4
сервера
2.3ггц,
4гб
ram,
репликация
4х
кратная

Большие
файлы.
8к
–
размер
блока,
как
у
PostgreSQL.

Сеть
150
мбит.

Обьем
Лок.
ФС
GlusterFS

1
гб
434мб/с
18.1мб/с

2
гб
577мб/с
18.6мб/с

4
гб
614мб/с
18.5мб/с

8
гб
733мб/с
17.2мб/с

16
гб
742мб/с
15.1мб/с

В
процессе

30%
cpu,
100%
ram

Для
16гб:

В
процессе

20%
cpu,
85%
ram

Для
1
гб:

1
компонент
макс.
1
ядро

Запись
без
sync

4
сервера
2.3ггц,
4гб
ram,
4х
кратная

Большие
файлы
без
sync.
Сможем
читать
позже
с
диска.

8к
–
размер
блока,
как
у
PostgreSQL.

Сеть
Обьем
Лок.
ФС
GlusterFS

1
гб
613мб/с
18.4мб/с

2
гб
724мб/с
17.4мб/с

4
гб
765мб/с
17.4мб/с

8
гб
737мб/с
18.4мб/с

16
гб
732мб/с
16.3мб/с

В
glusterFS
sync

делается
всегда

Чтение

4
сервера
2.3ггц,
4гб
ram,
4х
кратная

Сеть
150
мбит.

Обьем
Лок.
ФС
GlusterFS

1
гб
887мб/с
192мб/с

2
гб
602мб/с
204мб/с

4
гб
473мб/с
184мб/с

8
гб
878мб/с
173мб/с

16
гб
887мб/с
185мб/с

Запись
в
лок.
ФС

4
nodes
2.3ghz,
4gb
ram,
4х
rep,

150mbit.

4

128

4096

0

500000

1000000

1500000

transfer
size
(kb)

File
size
(kb)

kb/s

Запись
в
gluster
fs

4
nodes
2.3ghz,
4gb
ram,
4х
rep,

150mbit.

4

128

4096

0

100000

200000

300000

transfer
size
(kb)

File
size
(kb)

kb/s

Чтение
из
лок.фс.

4
nodes
2.3ghz,
4gb
ram,
4х
rep,

150mbit.

4

128

4096

0

2000000

4000000

6000000

8000000

transfer
size
(kb)

File
size
(kb)

kb/s

Чтение
из
glusterfs

4
nodes
2.3ghz,
4gb
ram,
4х
rep,

150mbit.

4

128

4096

0

2000000

4000000

6000000

transfer
size
(kb)

File
size
(kb)

kb/s

Случайное
чтение
из
лок.фс.

4
nodes
2.3ghz,
4gb
ram,
4х
rep,

150mbit.

4

128

4096

0

2000000

4000000

6000000

8000000

10000000

transfer
size
(kb)

File
size
(kb)

kb/s

Случайное
чтение
из
glusterfs

4
nodes
2.3ghz,
4gb
ram,
4х
rep,

150mbit.

4

128

4096

0

200000

400000

600000

transfer
size
(kb)

File
size
(kb)

kb/s

Рекомендации
от
разработчиков

Работа
через
NFS
быстрее
для
чтения
множества

мелких
файлов.

Работа
через
нативный
клиент
быстрее
для

интенсивной
записи.

https://github.com/gluster/glusterfs/tree/master/doc
Дополнительная
информация
по

функционированию:

Ceph

It will not be sufficient that I can - as now - slowly
claw my way forward by going through source
code, changing scripts, searching for bugs on
mailing lists archives. It will be necessary to
have an installation process that won't fail. As
some problems with Ceph seem to be random,
several installs from scratch should be carried
out to make sure it's not 2/3 deployments that
work.

Ceph

•  Потери данных сильно зависят от процесса
установки, выбранной ОС, ядра (например
система ничего не скажет при работе с 1 mon …
до потери данных).

•  Огромное
количество
проблем
при
тестировании
на

разных
ОС
(например
генерация
keyring
на
RedHat).

•  Случайные
падения
во
время
работы.

•  Неочевидный
процесс
восстановления
данных

упавшей
Ceph.

До продакшна далеко…

Архитектура
PCS

PCS

•  от 3 до 5 MDS
•  3 или больше CS
Рекомендуемая инсталляция на кластер
•  Любое кол-во нод в кластере могут играть роли
MDS, CS, клиентов
•  не требует специализированного оборудования

Высокая
доступность
PCS

•  Репликация MDS. До выхода из строя половины
MDS гарантируется доступность данных.
•  Репликация CS на необходимое количество
реплик.
•  Мониторит состояние кусков данных и
восстанавливает при восстановлении нод.
•  возможность мониторинга контрольных сумм CS
с SSD кешем журнала CS

Расширяемость
PCS

•  Обеспечивается добавлением CS.
Протестировано до 1 TB.
•  Балансировка IO нагрузки.
•  Возможность настройки политик, в зависимости
от производительности дисков для выделения.

Репликация
PCS

при репликации = 2

Деградация
кластера
PCS


Восстановление
PCS


PCS
vs
Raid

•  Быстрее чем перестроение Raid 1/5/10, т.к.
может происходить параллельно по всем
серверам кластера.
•  Чем больше CS, тем меньше времени на
репликацию каждого куска данных.
Скорость восстановления важна тк уменьшает
вероятность потери данных в деградированном
состоянии.

Влияние
на
скорость

•  Количество доступных CS.
•  Производительность локальных дисков.
•  Производительность локальных дисков.
•  Скорость сети: при чтении каждый кусок данных
передается по сети для записи доп. копии.
•  Распределение кусков данных по CS, которые
необходимо реплицировать.
•  I/O активность в кластере.

Тесты
производительности

1Тб

Тип
Скорость

Raid1
100
мб/с
(3
часа)

PCS
7
серверов
273
мб/с
(64
мин)

PCS
14
серверов
535
мб/с
(33
мин)

PCS
21
сервер
881
мб/с
(20
мин)

Raid1 7200RPM SATA
vs
PCS с дисками на 7200RPM SATA SR0

Тесты
производительности

1Тб
на
современном

железе

Тип
1
2

PCS
7

серверов

273
мб/с
649
мб/с

PCS
14

серверов

535
мб/с
1258
мб/с

1) PCS SR0 2SATA 1Gbit
Vs
2) PCS SR0 4SATA 10Gbit

Горизонтальное
масштабирование

При росте сравнимо с RAID1, добавляя SSD кеш быстрее

Вертикальное
масштабирование

PCS использует менее загруженные диски на ноде

Выводы
по
PCS

Производительность
PCS
сравнима
с
RAID,
но

предоставляет
большую
гибкость
и
масштабирование.

гораздо
быстрее
RAID,
тк
делается

параллельно
между
всеми
серверами
кластера.

Добавление
SSD
кеширования
позволяет
значительно

обогнать
RAID
по
скорости.

Общие
выводы

Gluster
FS
небыстр,
но
может
решить
проблемы

индивидуальных
пользователей
и
малых
компаний.

Ceph
пока
недостаточно
надежен
–
проблемы
с

деплоем
и
падения
при
тестировании.

PCS
готов
для
промышленной
эксплуатации
хостинг-‐
провайдерами.
Внедрение
в
новой
локации
Tier3

InfoboxCloud
ориентировочно
в
мае
2014.

Спасибо за внимание!
Храните данные надежно!
Юрий Трухин
эксперт по облачным технологиям
trukhin.yuri@infoboxcloud.com
@trukhinyuri

Юрий Трухин (InfoboxCloud)

Recommended

Recommended

More Related Content

What's hot

What's hot (18)

Viewers also liked

Viewers also liked (12)

More from Ontico

More from Ontico (20)

Юрий Трухин (InfoboxCloud)