SlideShare a Scribd company logo
1 of 51
Download to read offline
Распределенные	
  
отказоустойчивые	
  файловые	
  
системы	
  HA	
  DFS	
  
Юрий	
  Трухин	
  
	
  cloud	
  compu1ng	
  expert	
  
План	
  выступления	
  
Причины	
  
•  Количество	
  данных	
  в	
  дата-­‐центрах	
  растет	
  
•  Требуется	
  быстрый	
  доступ	
  к	
  данным	
  	
  
•  Требуется	
  высокая	
  доступность	
  данных	
  
•  Гибкость	
  и	
  низкая	
  стоимость	
  
Где	
  использовать?	
  
•  CDN	
  
•  Бекап	
  и	
  архивация	
  
•  Масштабируемые	
  файловые	
  сервера	
  
•  HPC	
  
•  IaaS	
  Storage	
  
•  Хранение	
  блобов	
  баз	
  данных	
  
Устройство	
  HA	
  DFS	
  
•  Сервер	
  данных	
  (CS):	
  содержимое	
  файлов	
  или	
  кусков	
  
данных	
  	
  
•  Сервер	
  метаданных	
  (MDS):	
  хранят	
  информацию	
  о	
  
данных	
  и	
  их	
  репликах.	
  При	
  использовании	
  кусков	
  
данных	
  хранит	
  информацию	
  о	
  том,	
  как	
  собрать	
  
куски	
  в	
  файлы.	
  Управляет	
  версиями	
  и	
  может	
  
хранить	
  лог	
  событий	
  на	
  кластере.	
  
•  Клиент:	
  использует	
  API	
  для	
  управления	
  данными,	
  
связывается	
  с	
  MDS	
  и	
  CS	
  
GlusterFS	
  
•  объединяет	
  существующие	
  файловые	
  системы	
  
(рекомендуется	
  XFS)	
  
•  Включает	
  в	
  себя	
  NFS3	
  сервер	
  
•  Для	
  пула	
  кластера	
  использовать	
  /etc/hosts	
  
некрасиво	
  и	
  ненадежно.	
  Используйте	
  DNS.	
  
•  Рекомендуется	
  использовать	
  NTP.	
  
•  Работает	
  в	
  UserSpace	
  через	
  FUSE.	
  
•  Posix–совместимая	
  HA	
  DFS	
  
GlusterFS	
  
•  Считается	
  хеш	
  от	
  имени	
  файла,	
  делится	
  по	
  
модулю	
  по	
  кол-­‐ву	
  имеющихся	
  серверов	
  для	
  
определения	
  места.	
  
•  При	
  переименовании	
  файла	
  оставляет	
  свой	
  
новый	
  адрес	
  на	
  старом	
  месте.	
  
•  Для	
  увеличения	
  числа	
  файловых	
  серверов	
  –	
  
extensible	
  hashing	
  (увеличение	
  значения	
  хеш-­‐
функции	
  без	
  пересчета	
  хешей).	
  
•  Нет	
  сервера	
  метаданных.	
  
•  Данные	
  записываются	
  сразу	
  на	
  несколько	
  нод.	
  
С	
  2мя	
  нодами	
  не	
  лучше	
  rsync.	
  
GlusterFS	
  Pro	
  
•  Любое	
  оборудование	
  без	
  каприз	
  (собирается	
  
даже	
  на	
  arm)	
  
•  Автоматическое	
  восстановление	
  при	
  сбоях	
  
•  Нет	
  центрального	
  сервера	
  метаданных	
  
•  Возможно	
  добавление	
  нод	
  по	
  мере	
  роста	
  
•  Простая	
  установка.	
  Правда.	
  8	
  шагов.	
  Отличная	
  
документация.	
  
•  Возможно	
  подключение	
  через	
  стандартные	
  
протоколы	
  NFS,	
  SMB/CIFS	
  или	
  нативный	
  
клиент.	
  
GlusterFS	
  Pro	
  
•  На	
  множестве	
  серверов	
  быстрый	
  
произвольный	
  доступ	
  к	
  файлу,	
  если	
  файл	
  
читает	
  небольшое	
  количество	
  клиентов.	
  
•  Возможно	
  увеличение	
  тома	
  при	
  добавлении	
  
нового	
  сервера.	
  
•  Поддерживает	
  локи	
  на	
  файлы	
  через	
  posix-­‐
locks,	
  о	
  которых	
  сообщает	
  всем	
  томам.	
  
•  Поддерживает	
  асинхронную	
  георепликацию.	
  
GlusterFS	
  Contra	
  
•  Без	
  репликации	
  потеря	
  сервера	
  –	
  потеря	
  всех	
  
данных	
  на	
  сервере.	
  	
  	
  
•  Если	
  файл	
  больше	
  размера	
  тома	
  –	
  случится	
  
ошибка	
  записи.	
  
•  Если	
  файл	
  не	
  там,	
  где	
  вычислен	
  хеш	
  –	
  будет	
  
долгий	
  поиск.	
  
•  ls	
  работает	
  медленно	
  тк	
  нет	
  сервера	
  
метаданных	
  –	
  нужно	
  обежать	
  все	
  сервера.	
  
Компоненты	
  
•  glusterd	
  управляет	
  эластичным	
  томом,	
  
соответственно	
  должен	
  быть	
  запущен	
  на	
  всех	
  
серверах,	
  где	
  необходимо	
  монтировать	
  FS.	
  
Управляется	
  через	
  gluster	
  cli.	
  
•  glusterfsd	
  управляет	
  brick	
  томами,	
  по	
  процессу	
  
на	
  том.	
  Управляется	
  glusterd.	
  
•  glusterfs	
  занимается	
  NFS,	
  FUSE	
  клиентами	
  и	
  
обеспечением	
  здоровья	
  системы	
  
•  mount.glusterfs	
  инструмент	
  для	
  монтирования	
  
через	
  FUSE	
  
•  gluster	
  интерфейс	
  CLI	
  
Трансляторы	
  
GlusterFS	
  использует	
  расширяемый	
  механизм	
  
трансляторов	
  (можно	
  писать	
  свои).	
  
storage	
  –	
  сохраняет	
  и	
  получает	
  данные	
  из	
  
файловой	
  системы	
  
Трансляторы	
  
cluster	
  –	
  занимается	
  распределением	
  и	
  
репликацией	
  данных,	
  записью	
  и	
  чтением	
  из	
  
хранилища	
  bricks	
  
Трансляторы	
  
debug	
  –	
  предоставляет	
  интерфейс	
  и	
  статистику	
  по	
  
ошибкам	
  для	
  отладки.	
  
encryp^on	
  –	
  на	
  лету	
  шифрует/расшифровывает	
  
данные.	
  
protocol	
  –	
  занимается	
  аутентификацией	
  клиента	
  и	
  
сервера	
  и	
  коммуникациями	
  между	
  ними.	
  
pеrformance	
  –	
  тюнинг	
  под	
  нагрузку.	
  
Трансляторы	
  
system	
  –	
  связывает	
  хранилище	
  с	
  ACL.	
  
sceduler	
  –	
  планирует	
  операции	
  I/O	
  для	
  
распределения	
  новых	
  записей	
  по	
  кластеру.	
  
features	
  –	
  доп.	
  фичи	
  типа	
  квот,	
  фильтров,	
  локов	
  и	
  
т.д.	
  
bindings	
  –	
  добавляет	
  расширяемость,	
  например	
  
есть	
  реализация	
  API	
  для	
  python.	
  
Падение	
  
1.	
  Файловая	
  система	
  запустит	
  fsck	
  на	
  томе,	
  далее	
  
gluster	
  восстановит	
  данные	
  из	
  реплик	
  
автоматически.	
  
2.	
  В	
  случае	
  краха	
  ноды	
  добавляем	
  новую	
  и	
  Gluster	
  
размазывает	
  данные	
  на	
  нее.	
  	
  
Гео-­‐репликация	
  
Асинхронная	
  по	
  модели	
  master–slave	
  
Slave	
  может	
  быть	
  как	
  удаленный	
  каталог,	
  так	
  и	
  
volume	
  gluster.	
  
Предназначена	
  для	
  бекапа,	
  а	
  не	
  для	
  HA	
  
Периодически	
  проверяет	
  изменения	
  и	
  
синхронизирует	
  их	
  инкрементально.	
  
Производительность	
  
Запись	
  с	
  sync	
  
4	
  сервера	
  2.3ггц,	
  4гб	
  ram,	
  репликация	
  4х	
  кратная	
  
Большие	
  файлы.	
  8к	
  –	
  размер	
  блока,	
  как	
  у	
  PostgreSQL.	
  
Сеть	
  150	
  мбит.	
  	
  
Обьем	
   Лок.	
  ФС	
   GlusterFS	
  
1	
  гб	
   434мб/с	
   18.1мб/с	
  
2	
  гб	
   577мб/с	
   18.6мб/с	
  
4	
  гб	
   614мб/с	
   18.5мб/с	
  
8	
  гб	
   733мб/с	
   17.2мб/с	
  
16	
  гб	
   742мб/с	
   15.1мб/с	
  
В	
  процессе	
  использует	
  
30%	
  cpu,	
  100%	
  ram	
  
Для	
  16гб:	
  
В	
  процессе	
  использует	
  
20%	
  cpu,	
  85%	
  ram	
  
Для	
  1	
  гб:	
  
1	
  компонент	
  использует	
  макс.	
  1	
  ядро
Запись	
  без	
  sync	
  
4	
  сервера	
  2.3ггц,	
  4гб	
  ram,	
  репликация	
  4х	
  кратная	
  
Большие	
  файлы	
  без	
  sync.	
  Сможем	
  читать	
  позже	
  с	
  диска.	
  
8к	
  –	
  размер	
  блока,	
  как	
  у	
  PostgreSQL.	
  
Сеть	
  Обьем	
   Лок.	
  ФС	
   GlusterFS	
  
1	
  гб	
   613мб/с	
   18.4мб/с	
  
2	
  гб	
   724мб/с	
   17.4мб/с	
  
4	
  гб	
   765мб/с	
   17.4мб/с	
  
8	
  гб	
   737мб/с	
   18.4мб/с	
  
16	
  гб	
   732мб/с	
   16.3мб/с	
  
В	
  glusterFS	
  sync	
  
делается	
  всегда	
  
Чтение	
  
4	
  сервера	
  2.3ггц,	
  4гб	
  ram,	
  репликация	
  4х	
  кратная	
  
Сеть	
  150	
  мбит.	
  
Обьем	
   Лок.	
  ФС	
   GlusterFS	
  
1	
  гб	
   887мб/с	
   192мб/с	
  
2	
  гб	
   602мб/с	
   204мб/с	
  
4	
  гб	
   473мб/с	
   184мб/с	
  
8	
  гб	
   878мб/с	
   173мб/с	
  
16	
  гб	
   887мб/с	
   185мб/с	
  
Запись	
  в	
  лок.	
  ФС	
  
4	
  nodes	
  2.3ghz,	
  4gb	
  ram,	
  4х	
  rep,	
  
150mbit.	
  
4	
  
128	
  
4096	
  
0	
  
500000	
  
1000000	
  
1500000	
  
transfer	
  size	
  (kb)	
  
File	
  size	
  (kb)	
  
kb/s	
  
Запись	
  в	
  gluster	
  fs	
  
4	
  nodes	
  2.3ghz,	
  4gb	
  ram,	
  4х	
  rep,	
  
150mbit.	
  
4	
  
128	
  
4096	
  
0	
  
100000	
  
200000	
  
300000	
  
transfer	
  size	
  (kb)	
  
File	
  size	
  (kb)	
  
kb/s	
  
Чтение	
  из	
  лок.фс.	
  
4	
  nodes	
  2.3ghz,	
  4gb	
  ram,	
  4х	
  rep,	
  
150mbit.	
  
4	
  
128	
  
4096	
  
0	
  
2000000	
  
4000000	
  
6000000	
  
8000000	
  
transfer	
  size	
  (kb)	
  
File	
  size	
  (kb)	
  
kb/s	
  
Чтение	
  из	
  glusterfs	
  
4	
  nodes	
  2.3ghz,	
  4gb	
  ram,	
  4х	
  rep,	
  
150mbit.	
  
4	
  
128	
  
4096	
  
0	
  
2000000	
  
4000000	
  
6000000	
  
transfer	
  size	
  (kb)	
  
File	
  size	
  (kb)	
  
kb/s	
  
Случайное	
  чтение	
  из	
  лок.фс.	
  
4	
  nodes	
  2.3ghz,	
  4gb	
  ram,	
  4х	
  rep,	
  
150mbit.	
  
4	
  
128	
  
4096	
  
0	
  
2000000	
  
4000000	
  
6000000	
  
8000000	
  
10000000	
  
transfer	
  size	
  (kb)	
  
File	
  size	
  (kb)	
  
kb/s	
  
Случайное	
  чтение	
  из	
  glusterfs	
  
4	
  nodes	
  2.3ghz,	
  4gb	
  ram,	
  4х	
  rep,	
  
150mbit.	
  
4	
  
128	
  
4096	
  
0	
  
200000	
  
400000	
  
600000	
  
transfer	
  size	
  (kb)	
  
File	
  size	
  (kb)	
  
kb/s	
  
Рекомендации	
  от	
  разработчиков	
  
Работа	
  через	
  NFS	
  быстрее	
  для	
  чтения	
  множества	
  
мелких	
  файлов.	
  
Работа	
  через	
  нативный	
  клиент	
  быстрее	
  для	
  
интенсивной	
  записи.	
  
https://github.com/gluster/glusterfs/tree/master/doc
Дополнительная	
  информация	
  по	
  
функционированию:	
  
Ceph	
  
It will not be sufficient that I can - as now - slowly
claw my way forward by going through source
code, changing scripts, searching for bugs on
mailing lists archives. It will be necessary to
have an installation process that won't fail. As
some problems with Ceph seem to be random,
several installs from scratch should be carried
out to make sure it's not 2/3 deployments that
work.
Ceph	
  
•  Потери данных сильно зависят от процесса
установки, выбранной ОС, ядра (например
система ничего не скажет при работе с 1 mon …
до потери данных).	
  
•  Огромное	
  количество	
  проблем	
  при	
  тестировании	
  на	
  
разных	
  ОС	
  (например	
  генерация	
  keyring	
  на	
  RedHat).	
  
•  Случайные	
  падения	
  во	
  время	
  работы.	
  
•  Неочевидный	
  процесс	
  восстановления	
  данных	
  
упавшей	
  Ceph.	
  
До продакшна далеко…	
  
Архитектура	
  PCS	
  
PCS	
  
•  от 3 до 5 MDS
•  3 или больше CS
Рекомендуемая инсталляция на кластер
•  Любое кол-во нод в кластере могут играть роли
MDS, CS, клиентов
•  не требует специализированного оборудования
Высокая	
  доступность	
  PCS	
  
•  Репликация MDS. До выхода из строя половины
MDS гарантируется доступность данных.
•  Репликация CS на необходимое количество
реплик.
•  Мониторит состояние кусков данных и
восстанавливает при восстановлении нод.
•  возможность мониторинга контрольных сумм CS
с SSD кешем журнала CS
Расширяемость	
  PCS	
  
•  Обеспечивается добавлением CS.
Протестировано до 1 TB.
•  Балансировка IO нагрузки.
•  Возможность настройки политик, в зависимости
от производительности дисков для выделения.
Репликация	
  PCS	
  
при репликации = 2
Деградация	
  кластера	
  PCS	
  
при репликации = 2
Восстановление	
  PCS	
  
при репликации = 2
Репликация	
  PCS	
  vs	
  Raid	
  
•  Быстрее чем перестроение Raid 1/5/10, т.к.
может происходить параллельно по всем
серверам кластера.
•  Чем больше CS, тем меньше времени на
репликацию каждого куска данных.
Скорость восстановления важна тк уменьшает
вероятность потери данных в деградированном
состоянии.
Влияние	
  на	
  скорость	
  репликации	
  
•  Количество доступных CS.
•  Производительность локальных дисков.
•  Производительность локальных дисков.
•  Скорость сети: при чтении каждый кусок данных
передается по сети для записи доп. копии.
•  Распределение кусков данных по CS, которые
необходимо реплицировать.
•  I/O активность в кластере.
Тесты	
  производительности	
  
репликации	
  1Тб	
  
Тип	
   Скорость	
  
Raid1	
   100	
  мб/с	
  (3	
  часа)	
  
PCS	
  7	
  серверов	
   273	
  мб/с	
  (64	
  мин)	
  
PCS	
  14	
  серверов	
   535	
  мб/с	
  (33	
  мин)	
  
PCS	
  21	
  сервер	
   881	
  мб/с	
  (20	
  мин)	
  
Raid1 7200RPM SATA
vs
PCS с дисками на 7200RPM SATA SR0
Тесты	
  производительности	
  
репликации	
  1Тб	
  на	
  современном	
  
железе	
  
Тип	
   1	
   2	
  
PCS	
  7	
  
серверов	
  
273	
  мб/с	
   649	
  мб/с	
  
PCS	
  14	
  
серверов	
  
535	
  мб/с	
   1258	
  мб/с	
  
1) PCS SR0 2SATA 1Gbit
Vs
2) PCS SR0 4SATA 10Gbit
Горизонтальное	
  масштабирование	
  
При росте сравнимо с RAID1, добавляя SSD кеш быстрее
Горизонтальное	
  масштабирование	
  
При росте сравнимо с RAID1, добавляя SSD кеш быстрее
Вертикальное	
  масштабирование	
  
PCS использует менее загруженные диски на ноде
Вертикальное	
  масштабирование	
  
PCS использует менее загруженные диски на ноде
Выводы	
  по	
  PCS	
  
Производительность	
  PCS	
  сравнима	
  с	
  RAID,	
  но	
  
предоставляет	
  большую	
  гибкость	
  и	
  масштабирование.	
  
Репликация	
  гораздо	
  быстрее	
  RAID,	
  тк	
  делается	
  
параллельно	
  между	
  всеми	
  серверами	
  кластера.	
  
Добавление	
  SSD	
  кеширования	
  позволяет	
  значительно	
  
обогнать	
  RAID	
  по	
  скорости.	
  
Общие	
  выводы	
  
Gluster	
  FS	
  небыстр,	
  но	
  может	
  решить	
  проблемы	
  
индивидуальных	
  пользователей	
  и	
  малых	
  компаний.	
  
	
  
Ceph	
  пока	
  недостаточно	
  надежен	
  –	
  проблемы	
  с	
  
деплоем	
  и	
  падения	
  при	
  тестировании.	
  
	
  
PCS	
  готов	
  для	
  промышленной	
  эксплуатации	
  хостинг-­‐
провайдерами.	
  Внедрение	
  в	
  новой	
  локации	
  Tier3	
  
InfoboxCloud	
  ориентировочно	
  в	
  мае	
  2014.	
  
Спасибо за внимание!
Храните данные надежно!
Юрий Трухин
эксперт по облачным технологиям
trukhin.yuri@infoboxcloud.com
@trukhinyuri

More Related Content

What's hot

Profit Backlog | В погоне за эффективным бэклогом
Profit Backlog | В погоне за эффективным бэклогомProfit Backlog | В погоне за эффективным бэклогом
Profit Backlog | В погоне за эффективным бэклогомNikita Filippov
 
Восхождение разума
Восхождение разумаВосхождение разума
Восхождение разумаDanila Medvedev
 
Конференция UXR2009 и тест HCD
Конференция UXR2009 и тест HCDКонференция UXR2009 и тест HCD
Конференция UXR2009 и тест HCDDmitry Satin
 
телемост эффективный цод 1
телемост   эффективный цод 1телемост   эффективный цод 1
телемост эффективный цод 1it.times.com.ua
 
Sef 2009 Itsm
Sef 2009 ItsmSef 2009 Itsm
Sef 2009 Itsmsef2009
 
life placement - chivas regal
life placement - chivas regallife placement - chivas regal
life placement - chivas regalBrand Switcher
 
Elina kuzyutkina-hitrosti-i-tryuki-v-ispolzovanii-zabbix
Elina kuzyutkina-hitrosti-i-tryuki-v-ispolzovanii-zabbixElina kuzyutkina-hitrosti-i-tryuki-v-ispolzovanii-zabbix
Elina kuzyutkina-hitrosti-i-tryuki-v-ispolzovanii-zabbixMichael Ganschuk
 
Urazbaev
UrazbaevUrazbaev
Urazbaevsef2009
 
шейдеры
шейдерышейдеры
шейдерыasmorkalov
 
Оптимизация сайта на Wordpress: темы, плагины, лайфхаки
Оптимизация сайта на Wordpress: темы, плагины, лайфхакиОптимизация сайта на Wordpress: темы, плагины, лайфхаки
Оптимизация сайта на Wordpress: темы, плагины, лайфхакиcollaborator.pro
 
Изменения в 111 ФЗ и 75 ФЗ
Изменения в 111 ФЗ и 75 ФЗИзменения в 111 ФЗ и 75 ФЗ
Изменения в 111 ФЗ и 75 ФЗslon
 

What's hot (18)

Mixing Agile Rup
Mixing Agile RupMixing Agile Rup
Mixing Agile Rup
 
Metrika Razuvaev
Metrika RazuvaevMetrika Razuvaev
Metrika Razuvaev
 
Profit Backlog | В погоне за эффективным бэклогом
Profit Backlog | В погоне за эффективным бэклогомProfit Backlog | В погоне за эффективным бэклогом
Profit Backlog | В погоне за эффективным бэклогом
 
Восхождение разума
Восхождение разумаВосхождение разума
Восхождение разума
 
Problogging
ProbloggingProblogging
Problogging
 
Конференция UXR2009 и тест HCD
Конференция UXR2009 и тест HCDКонференция UXR2009 и тест HCD
Конференция UXR2009 и тест HCD
 
телемост эффективный цод 1
телемост   эффективный цод 1телемост   эффективный цод 1
телемост эффективный цод 1
 
Sef 2009 Itsm
Sef 2009 ItsmSef 2009 Itsm
Sef 2009 Itsm
 
life placement - chivas regal
life placement - chivas regallife placement - chivas regal
life placement - chivas regal
 
4 24 28
4 24 284 24 28
4 24 28
 
Elina kuzyutkina-hitrosti-i-tryuki-v-ispolzovanii-zabbix
Elina kuzyutkina-hitrosti-i-tryuki-v-ispolzovanii-zabbixElina kuzyutkina-hitrosti-i-tryuki-v-ispolzovanii-zabbix
Elina kuzyutkina-hitrosti-i-tryuki-v-ispolzovanii-zabbix
 
Urazbaev
UrazbaevUrazbaev
Urazbaev
 
шейдеры
шейдерышейдеры
шейдеры
 
Gate 4000
Gate 4000Gate 4000
Gate 4000
 
5
55
5
 
Xrumme
XrummeXrumme
Xrumme
 
Оптимизация сайта на Wordpress: темы, плагины, лайфхаки
Оптимизация сайта на Wordpress: темы, плагины, лайфхакиОптимизация сайта на Wordpress: темы, плагины, лайфхаки
Оптимизация сайта на Wordpress: темы, плагины, лайфхаки
 
Изменения в 111 ФЗ и 75 ФЗ
Изменения в 111 ФЗ и 75 ФЗИзменения в 111 ФЗ и 75 ФЗ
Изменения в 111 ФЗ и 75 ФЗ
 

Viewers also liked

2015-12-05 Александр Рожнов - Свое облако под стейджинг
2015-12-05 Александр Рожнов - Свое облако под стейджинг2015-12-05 Александр Рожнов - Свое облако под стейджинг
2015-12-05 Александр Рожнов - Свое облако под стейджингHappyDev
 
State of the_gluster_-_lceu
State of the_gluster_-_lceuState of the_gluster_-_lceu
State of the_gluster_-_lceuGluster.org
 
Gluster fs current_features_and_roadmap
Gluster fs current_features_and_roadmapGluster fs current_features_and_roadmap
Gluster fs current_features_and_roadmapGluster.org
 
Демонстрируем результаты заказчику: How to и how to not (Евгения Фирсова)
Демонстрируем результаты заказчику: How to и how to not (Евгения Фирсова)Демонстрируем результаты заказчику: How to и how to not (Евгения Фирсова)
Демонстрируем результаты заказчику: How to и how to not (Евгения Фирсова)Ontico
 
Marian Marinov, 1H Ltd.
Marian Marinov, 1H Ltd.Marian Marinov, 1H Ltd.
Marian Marinov, 1H Ltd.Ontico
 
Clusters With Glusterfs
Clusters With GlusterfsClusters With Glusterfs
Clusters With GlusterfsOntico
 
Обзор файловой системы GlusterFS
Обзор файловой системы GlusterFSОбзор файловой системы GlusterFS
Обзор файловой системы GlusterFSOSLL
 
Gluster for sysadmins
Gluster for sysadminsGluster for sysadmins
Gluster for sysadminsGluster.org
 
Storage as a Service with Gluster
Storage as a Service with GlusterStorage as a Service with Gluster
Storage as a Service with GlusterVijay Bellur
 
Red Hat Storage - Introduction to GlusterFS
Red Hat Storage - Introduction to GlusterFSRed Hat Storage - Introduction to GlusterFS
Red Hat Storage - Introduction to GlusterFSGlusterFS
 
Ceph BlueStore - новый тип хранилища в Ceph / Максим Воронцов, (Redsys)
Ceph BlueStore - новый тип хранилища в Ceph / Максим Воронцов, (Redsys)Ceph BlueStore - новый тип хранилища в Ceph / Максим Воронцов, (Redsys)
Ceph BlueStore - новый тип хранилища в Ceph / Максим Воронцов, (Redsys)Ontico
 

Viewers also liked (12)

Red Hat Storage 3.0
Red Hat Storage 3.0Red Hat Storage 3.0
Red Hat Storage 3.0
 
2015-12-05 Александр Рожнов - Свое облако под стейджинг
2015-12-05 Александр Рожнов - Свое облако под стейджинг2015-12-05 Александр Рожнов - Свое облако под стейджинг
2015-12-05 Александр Рожнов - Свое облако под стейджинг
 
State of the_gluster_-_lceu
State of the_gluster_-_lceuState of the_gluster_-_lceu
State of the_gluster_-_lceu
 
Gluster fs current_features_and_roadmap
Gluster fs current_features_and_roadmapGluster fs current_features_and_roadmap
Gluster fs current_features_and_roadmap
 
Демонстрируем результаты заказчику: How to и how to not (Евгения Фирсова)
Демонстрируем результаты заказчику: How to и how to not (Евгения Фирсова)Демонстрируем результаты заказчику: How to и how to not (Евгения Фирсова)
Демонстрируем результаты заказчику: How to и how to not (Евгения Фирсова)
 
Marian Marinov, 1H Ltd.
Marian Marinov, 1H Ltd.Marian Marinov, 1H Ltd.
Marian Marinov, 1H Ltd.
 
Clusters With Glusterfs
Clusters With GlusterfsClusters With Glusterfs
Clusters With Glusterfs
 
Обзор файловой системы GlusterFS
Обзор файловой системы GlusterFSОбзор файловой системы GlusterFS
Обзор файловой системы GlusterFS
 
Gluster for sysadmins
Gluster for sysadminsGluster for sysadmins
Gluster for sysadmins
 
Storage as a Service with Gluster
Storage as a Service with GlusterStorage as a Service with Gluster
Storage as a Service with Gluster
 
Red Hat Storage - Introduction to GlusterFS
Red Hat Storage - Introduction to GlusterFSRed Hat Storage - Introduction to GlusterFS
Red Hat Storage - Introduction to GlusterFS
 
Ceph BlueStore - новый тип хранилища в Ceph / Максим Воронцов, (Redsys)
Ceph BlueStore - новый тип хранилища в Ceph / Максим Воронцов, (Redsys)Ceph BlueStore - новый тип хранилища в Ceph / Максим Воронцов, (Redsys)
Ceph BlueStore - новый тип хранилища в Ceph / Максим Воронцов, (Redsys)
 

More from Ontico

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...Ontico
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Ontico
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Ontico
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Ontico
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Ontico
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)Ontico
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Ontico
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Ontico
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)Ontico
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)Ontico
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Ontico
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Ontico
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Ontico
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Ontico
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)Ontico
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Ontico
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Ontico
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...Ontico
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Ontico
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Ontico
 

More from Ontico (20)

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
 

Юрий Трухин (InfoboxCloud)

  • 1. Распределенные   отказоустойчивые  файловые   системы  HA  DFS   Юрий  Трухин    cloud  compu1ng  expert  
  • 3. Причины   •  Количество  данных  в  дата-­‐центрах  растет   •  Требуется  быстрый  доступ  к  данным     •  Требуется  высокая  доступность  данных   •  Гибкость  и  низкая  стоимость  
  • 4. Где  использовать?   •  CDN   •  Бекап  и  архивация   •  Масштабируемые  файловые  сервера   •  HPC   •  IaaS  Storage   •  Хранение  блобов  баз  данных  
  • 5. Устройство  HA  DFS   •  Сервер  данных  (CS):  содержимое  файлов  или  кусков   данных     •  Сервер  метаданных  (MDS):  хранят  информацию  о   данных  и  их  репликах.  При  использовании  кусков   данных  хранит  информацию  о  том,  как  собрать   куски  в  файлы.  Управляет  версиями  и  может   хранить  лог  событий  на  кластере.   •  Клиент:  использует  API  для  управления  данными,   связывается  с  MDS  и  CS  
  • 6.
  • 7. GlusterFS   •  объединяет  существующие  файловые  системы   (рекомендуется  XFS)   •  Включает  в  себя  NFS3  сервер   •  Для  пула  кластера  использовать  /etc/hosts   некрасиво  и  ненадежно.  Используйте  DNS.   •  Рекомендуется  использовать  NTP.   •  Работает  в  UserSpace  через  FUSE.   •  Posix–совместимая  HA  DFS  
  • 8. GlusterFS   •  Считается  хеш  от  имени  файла,  делится  по   модулю  по  кол-­‐ву  имеющихся  серверов  для   определения  места.   •  При  переименовании  файла  оставляет  свой   новый  адрес  на  старом  месте.   •  Для  увеличения  числа  файловых  серверов  –   extensible  hashing  (увеличение  значения  хеш-­‐ функции  без  пересчета  хешей).   •  Нет  сервера  метаданных.   •  Данные  записываются  сразу  на  несколько  нод.   С  2мя  нодами  не  лучше  rsync.  
  • 9. GlusterFS  Pro   •  Любое  оборудование  без  каприз  (собирается   даже  на  arm)   •  Автоматическое  восстановление  при  сбоях   •  Нет  центрального  сервера  метаданных   •  Возможно  добавление  нод  по  мере  роста   •  Простая  установка.  Правда.  8  шагов.  Отличная   документация.   •  Возможно  подключение  через  стандартные   протоколы  NFS,  SMB/CIFS  или  нативный   клиент.  
  • 10. GlusterFS  Pro   •  На  множестве  серверов  быстрый   произвольный  доступ  к  файлу,  если  файл   читает  небольшое  количество  клиентов.   •  Возможно  увеличение  тома  при  добавлении   нового  сервера.   •  Поддерживает  локи  на  файлы  через  posix-­‐ locks,  о  которых  сообщает  всем  томам.   •  Поддерживает  асинхронную  георепликацию.  
  • 11. GlusterFS  Contra   •  Без  репликации  потеря  сервера  –  потеря  всех   данных  на  сервере.       •  Если  файл  больше  размера  тома  –  случится   ошибка  записи.   •  Если  файл  не  там,  где  вычислен  хеш  –  будет   долгий  поиск.   •  ls  работает  медленно  тк  нет  сервера   метаданных  –  нужно  обежать  все  сервера.  
  • 12. Компоненты   •  glusterd  управляет  эластичным  томом,   соответственно  должен  быть  запущен  на  всех   серверах,  где  необходимо  монтировать  FS.   Управляется  через  gluster  cli.   •  glusterfsd  управляет  brick  томами,  по  процессу   на  том.  Управляется  glusterd.   •  glusterfs  занимается  NFS,  FUSE  клиентами  и   обеспечением  здоровья  системы   •  mount.glusterfs  инструмент  для  монтирования   через  FUSE   •  gluster  интерфейс  CLI  
  • 13. Трансляторы   GlusterFS  использует  расширяемый  механизм   трансляторов  (можно  писать  свои).   storage  –  сохраняет  и  получает  данные  из   файловой  системы  
  • 14. Трансляторы   cluster  –  занимается  распределением  и   репликацией  данных,  записью  и  чтением  из   хранилища  bricks  
  • 15. Трансляторы   debug  –  предоставляет  интерфейс  и  статистику  по   ошибкам  для  отладки.   encryp^on  –  на  лету  шифрует/расшифровывает   данные.   protocol  –  занимается  аутентификацией  клиента  и   сервера  и  коммуникациями  между  ними.   pеrformance  –  тюнинг  под  нагрузку.  
  • 16. Трансляторы   system  –  связывает  хранилище  с  ACL.   sceduler  –  планирует  операции  I/O  для   распределения  новых  записей  по  кластеру.   features  –  доп.  фичи  типа  квот,  фильтров,  локов  и   т.д.   bindings  –  добавляет  расширяемость,  например   есть  реализация  API  для  python.  
  • 17. Падение   1.  Файловая  система  запустит  fsck  на  томе,  далее   gluster  восстановит  данные  из  реплик   автоматически.   2.  В  случае  краха  ноды  добавляем  новую  и  Gluster   размазывает  данные  на  нее.    
  • 18. Гео-­‐репликация   Асинхронная  по  модели  master–slave   Slave  может  быть  как  удаленный  каталог,  так  и   volume  gluster.   Предназначена  для  бекапа,  а  не  для  HA   Периодически  проверяет  изменения  и   синхронизирует  их  инкрементально.  
  • 20. Запись  с  sync   4  сервера  2.3ггц,  4гб  ram,  репликация  4х  кратная   Большие  файлы.  8к  –  размер  блока,  как  у  PostgreSQL.   Сеть  150  мбит.     Обьем   Лок.  ФС   GlusterFS   1  гб   434мб/с   18.1мб/с   2  гб   577мб/с   18.6мб/с   4  гб   614мб/с   18.5мб/с   8  гб   733мб/с   17.2мб/с   16  гб   742мб/с   15.1мб/с   В  процессе  использует   30%  cpu,  100%  ram   Для  16гб:   В  процессе  использует   20%  cpu,  85%  ram   Для  1  гб:   1  компонент  использует  макс.  1  ядро
  • 21. Запись  без  sync   4  сервера  2.3ггц,  4гб  ram,  репликация  4х  кратная   Большие  файлы  без  sync.  Сможем  читать  позже  с  диска.   8к  –  размер  блока,  как  у  PostgreSQL.   Сеть  Обьем   Лок.  ФС   GlusterFS   1  гб   613мб/с   18.4мб/с   2  гб   724мб/с   17.4мб/с   4  гб   765мб/с   17.4мб/с   8  гб   737мб/с   18.4мб/с   16  гб   732мб/с   16.3мб/с   В  glusterFS  sync   делается  всегда  
  • 22. Чтение   4  сервера  2.3ггц,  4гб  ram,  репликация  4х  кратная   Сеть  150  мбит.   Обьем   Лок.  ФС   GlusterFS   1  гб   887мб/с   192мб/с   2  гб   602мб/с   204мб/с   4  гб   473мб/с   184мб/с   8  гб   878мб/с   173мб/с   16  гб   887мб/с   185мб/с  
  • 23. Запись  в  лок.  ФС   4  nodes  2.3ghz,  4gb  ram,  4х  rep,   150mbit.   4   128   4096   0   500000   1000000   1500000   transfer  size  (kb)   File  size  (kb)   kb/s  
  • 24. Запись  в  gluster  fs   4  nodes  2.3ghz,  4gb  ram,  4х  rep,   150mbit.   4   128   4096   0   100000   200000   300000   transfer  size  (kb)   File  size  (kb)   kb/s  
  • 25. Чтение  из  лок.фс.   4  nodes  2.3ghz,  4gb  ram,  4х  rep,   150mbit.   4   128   4096   0   2000000   4000000   6000000   8000000   transfer  size  (kb)   File  size  (kb)   kb/s  
  • 26. Чтение  из  glusterfs   4  nodes  2.3ghz,  4gb  ram,  4х  rep,   150mbit.   4   128   4096   0   2000000   4000000   6000000   transfer  size  (kb)   File  size  (kb)   kb/s  
  • 27. Случайное  чтение  из  лок.фс.   4  nodes  2.3ghz,  4gb  ram,  4х  rep,   150mbit.   4   128   4096   0   2000000   4000000   6000000   8000000   10000000   transfer  size  (kb)   File  size  (kb)   kb/s  
  • 28. Случайное  чтение  из  glusterfs   4  nodes  2.3ghz,  4gb  ram,  4х  rep,   150mbit.   4   128   4096   0   200000   400000   600000   transfer  size  (kb)   File  size  (kb)   kb/s  
  • 29. Рекомендации  от  разработчиков   Работа  через  NFS  быстрее  для  чтения  множества   мелких  файлов.   Работа  через  нативный  клиент  быстрее  для   интенсивной  записи.   https://github.com/gluster/glusterfs/tree/master/doc Дополнительная  информация  по   функционированию:  
  • 30.
  • 31. Ceph   It will not be sufficient that I can - as now - slowly claw my way forward by going through source code, changing scripts, searching for bugs on mailing lists archives. It will be necessary to have an installation process that won't fail. As some problems with Ceph seem to be random, several installs from scratch should be carried out to make sure it's not 2/3 deployments that work.
  • 32. Ceph   •  Потери данных сильно зависят от процесса установки, выбранной ОС, ядра (например система ничего не скажет при работе с 1 mon … до потери данных).   •  Огромное  количество  проблем  при  тестировании  на   разных  ОС  (например  генерация  keyring  на  RedHat).   •  Случайные  падения  во  время  работы.   •  Неочевидный  процесс  восстановления  данных   упавшей  Ceph.   До продакшна далеко…  
  • 33.
  • 35. PCS   •  от 3 до 5 MDS •  3 или больше CS Рекомендуемая инсталляция на кластер •  Любое кол-во нод в кластере могут играть роли MDS, CS, клиентов •  не требует специализированного оборудования
  • 36. Высокая  доступность  PCS   •  Репликация MDS. До выхода из строя половины MDS гарантируется доступность данных. •  Репликация CS на необходимое количество реплик. •  Мониторит состояние кусков данных и восстанавливает при восстановлении нод. •  возможность мониторинга контрольных сумм CS с SSD кешем журнала CS
  • 37. Расширяемость  PCS   •  Обеспечивается добавлением CS. Протестировано до 1 TB. •  Балансировка IO нагрузки. •  Возможность настройки политик, в зависимости от производительности дисков для выделения.
  • 38. Репликация  PCS   при репликации = 2
  • 39. Деградация  кластера  PCS   при репликации = 2
  • 41. Репликация  PCS  vs  Raid   •  Быстрее чем перестроение Raid 1/5/10, т.к. может происходить параллельно по всем серверам кластера. •  Чем больше CS, тем меньше времени на репликацию каждого куска данных. Скорость восстановления важна тк уменьшает вероятность потери данных в деградированном состоянии.
  • 42. Влияние  на  скорость  репликации   •  Количество доступных CS. •  Производительность локальных дисков. •  Производительность локальных дисков. •  Скорость сети: при чтении каждый кусок данных передается по сети для записи доп. копии. •  Распределение кусков данных по CS, которые необходимо реплицировать. •  I/O активность в кластере.
  • 43. Тесты  производительности   репликации  1Тб   Тип   Скорость   Raid1   100  мб/с  (3  часа)   PCS  7  серверов   273  мб/с  (64  мин)   PCS  14  серверов   535  мб/с  (33  мин)   PCS  21  сервер   881  мб/с  (20  мин)   Raid1 7200RPM SATA vs PCS с дисками на 7200RPM SATA SR0
  • 44. Тесты  производительности   репликации  1Тб  на  современном   железе   Тип   1   2   PCS  7   серверов   273  мб/с   649  мб/с   PCS  14   серверов   535  мб/с   1258  мб/с   1) PCS SR0 2SATA 1Gbit Vs 2) PCS SR0 4SATA 10Gbit
  • 45. Горизонтальное  масштабирование   При росте сравнимо с RAID1, добавляя SSD кеш быстрее
  • 46. Горизонтальное  масштабирование   При росте сравнимо с RAID1, добавляя SSD кеш быстрее
  • 47. Вертикальное  масштабирование   PCS использует менее загруженные диски на ноде
  • 48. Вертикальное  масштабирование   PCS использует менее загруженные диски на ноде
  • 49. Выводы  по  PCS   Производительность  PCS  сравнима  с  RAID,  но   предоставляет  большую  гибкость  и  масштабирование.   Репликация  гораздо  быстрее  RAID,  тк  делается   параллельно  между  всеми  серверами  кластера.   Добавление  SSD  кеширования  позволяет  значительно   обогнать  RAID  по  скорости.  
  • 50. Общие  выводы   Gluster  FS  небыстр,  но  может  решить  проблемы   индивидуальных  пользователей  и  малых  компаний.     Ceph  пока  недостаточно  надежен  –  проблемы  с   деплоем  и  падения  при  тестировании.     PCS  готов  для  промышленной  эксплуатации  хостинг-­‐ провайдерами.  Внедрение  в  новой  локации  Tier3   InfoboxCloud  ориентировочно  в  мае  2014.  
  • 51. Спасибо за внимание! Храните данные надежно! Юрий Трухин эксперт по облачным технологиям trukhin.yuri@infoboxcloud.com @trukhinyuri