SlideShare una empresa de Scribd logo
1 de 30
Descargar para leer sin conexión
Le métier d’Ops sur AWS
                                   Raphaël Ferreira - CoFounder
                                              @ enovance
                   22 mai 2012
                                                   1
mardi 12 juin 12
Nouvelle génération de services d’Hébergement & d’Infogérance

                        Infrastructures Cloud Open Source
                        OpenStack, Puppet, Stockage Distribué Ceph,


                        Multi-Cloud Management 24x7x365
                        eNoCloud, AWS Partner, RackspaceCloud Partner, Peer1 Partner


                        Amélioration de l’expérience utilisateurs
                        Haute Performance, Haute Disponibilité, Agrégation de Cloud & CDN, Monitoring Performance


                        Web, Mobile & Big Data
                        Elasticité, Réactivité, Distribution internationale, Performance, Résilience


                                                                   2
mardi 12 juin 12
Expertise




                   3
mardi 12 juin 12
Paris & Montreal

                   •   Equipes bilingues Anglais - Français
                   •   Maintiens en conditions opérationnelles : 24x7x365
                   •   Exploitation & Intégration : 09h00 - 01h00
                   •   Effectifs : 25 personnes (2/3 techniques)




                                              4
mardi 12 juin 12
Certifications

                    Organisation, Process & Méthodologie         ITIL V3, ISO 9001-2008, ISO 20000-1

                                                         OSEO Innovation, Jeune Entreprise Innovante,
                   Innovation, Recherche & Développement            Labellisé Systematic

                               Environnement                                 ISO 14000

                         Santé et Sécurité au travail                      OHSAS 18001

                                                               ISO 27001, ISO 9001, ISO 14001, OHSAS
                                Datacenters                                 18001, PCI-DSS




                                                           5
mardi 12 juin 12
Références

   Weekendesk : hébergement et infogérance de la
   plateforme eCommerce et agrégation de CDN

   Kreactive : hébergement d’applications mobiles et
   facebook à plus de 4000 requêtes simultanées

   Streamlike : diffusion des vidéos Louis Vuitton, PSA, Alston...
   dans le monde entier

   Motricity : Datacenter européen du groupe pour la gestion
   des régies publicitaires et applications mobiles de Nokia,
   TF1, Canal Plus, Bouygues Telecom....

   LeGuide.com : Accélération des performances du premier
   comparateur de prix en Europe

   Total Immersion : Plateforme de réalité augmentée sur
   AWS à destination de Ray Ban, Repsol, Afflelou...




                                                                     6
mardi 12 juin 12
Save The Date

                   Jeudi 31 Mai
                   OpenStack in Action 2
                   Production Ready
                   Paris Eurosite République

                   eNoCloud : Lancement Officiel
                   First OpenStack Public Cloud
                   Paris Equinix & Telecity 3

                          7
mardi 12 juin 12
Le métier d’Ops sur le Cloud
                   Retour d’expérience sur un apprentissage continu, les difficultés rencontrées et les
                                                  questions posées




                                                            8
mardi 12 juin 12
Ops 2.0
                                                 We Design, Build and Run...




                   Private Clouds                                                               Public Clouds


                        On-premise          Hébergé                               OpenStack Public Cloud

                                OpenStack Starter Pack
                                                                                     AWS Cloud EC2

                               OpenStack Private Cloud
                                                                                     Rackspace Cloud

                   + Automatisation - Monitoring - Sauvegardes - Haute Performance & Haute Disponibilité - Sécurité
                                                                  9
mardi 12 juin 12
Motivations
                                                            Plateforme      Plateforme
                                                           Traditionnelle      Cloud

                                Elasticité
                                                                -              +
                   Réactivité - Délais de mise en oeuvre
                                                                -              +
                                  Agilité
                                                                -              +
                        Maîtrise de la performance
                                                                +              -
                               Disponibilité
                                                                =              =
                   Adaptations - Montée en compétence
                                                                +              -
                          Investissement initial
                                                                -              +
                           Coût d’exploitation
                                                                =              =

                                                      10
mardi 12 juin 12
Dans les grandes lignes

                   Aspects Techniques

                    + Grande souplesse d’usage : démarrage et arrêt d’instances à volonté
                    + APIs et Dashboard offrent un contrôle simple de l’infrastructure
                    + Possibilité d’automatiser le provisioning et la gestion de l’infrastructure grâce à une
                    abstraction forte des différentes ressources
                    + Ressources quasi-illimitées

                    - Opacité de l’infrastructure sous jacente
                    - Adapter son besoin à l’infrastructure cloud et pas l’inverse
                    - Impossibilité de sélectionner des composants hardware spécifiques
                    - Impossibilité de mettre en oeuvre une interconnexion réseau spécifique



                                                           11
mardi 12 juin 12
Dans les grandes lignes
                   Aspects Financiers

                    + Pas d’investissement initial
                    + Coûts variables s’adaptant à la charge et pouvant donc varier en fonction de l’audience ou des
                    revenus

                    = Il existe en revanche des coûts incompressibles qui ne changent pas :
                          Redondance des équipements
                          Infogérance applicative et astreintes
                          Outils de gestion d’infrastructures : monitoring, logs, sauvegardes, ....

                    - Complexité dans prévision des coûts
                    - Vigilance accrue pour la maîtrise des coûts



                                                                 12
mardi 12 juin 12
Vocabulaire spécifique
                                                                              Plateforme
                       Plateforme Traditionnelle
                                                                                 Cloud

                             Datacenter, Baie, Rack                             Région, AZ

                                    Serveur                                    Instance EC2

                   Stockage VM, Stockage partagé ou mutualisé            Stockage éphémère, EBS, S3

                          Ferme de serveurs frontaux                        Auto-Scalling Group

                             Répartiteur de charge                                  ELB

                          Serveur de base de données                               RDS

                           Plateforme de supervision                            CloudWatch

                            Alertes et Notifications                      Simple Notification Service




                                                                13
mardi 12 juin 12
Spécificités et limitations

                   Des spécificités qui imposent de revoir les process et les habitudes
                    • Gestion des limitations : nombre d’IP, nombre d’instances, nombre de
                        loadbalancer....
                    •   Adresses IP Privées flottantes
                    •   Préchauffage des ELB
                    •   ....

                   Points souvent non bloquants mais apprentissage complexe




                                                        14
mardi 12 juin 12
Le métier d’Ops
          Les bases du métier d’Ops
            • Plomberie : Rack, Cables et Tournevis
            • Installation, Déploiement, Configuration
            • Supervision & Monitoring
            • Sauvegardes
            • Maintiens en Conditions Opérationnelles
            • Exploitation courante & Intégration
            • Sécurité
            • Base documentaire / Référentiel

          Les évolutions
            • Exploiter les nouveaux outils proposer pour adapter automatique la plateforme à la charge
            • Modifier l’organisation et les profils de recrutement
            • Remonter dans les couches : orientation DevOps


                                                         15
mardi 12 juin 12
Plomberie
                                                                                            Plateforme
                        Plateforme Traditionnelle
                                                                                               Cloud

                   Mise en Baie, Câblage, Etiquetage... : 2 heures                   Start nouvelle instance : 5 mn


                                     Boot PXE                                             AMI - Market Place


                      Maitrise des caractéristiques hardware                Opacité - Unité EC2 - Variabilité dans le temps

                       Maitrise du réseau d’interconnexion
                                                                          Latences inter-machines / inter-zones non maitrisées
                              (1Gbps, 10Gbps, IB....)

                                                                     Transfert de données sur Internet / Envoi des données par
                   Connexion de supports Physiques en direct
                                                                                        support physique

                         Intégration de liens privés dédiés                          VPC / Direct Connect (limité)




                                                                     16
mardi 12 juin 12
Déploiement & Configuration
                   Administrateur système ou Architecte système ?
                     • Implication en amont sur le design de l’architecture et l’adaptation des pratiques d’ingénierie
                         logicielle.
                     •   Temps d’intégration plus longs pour mettre en place les dispositifs d’automatisations nécessaires
                         puppet, auto-scalling....

                   Complexité du processus avant-vente
                     • Design et dimensionnement complexes du fait de la non maîtrise de l’infrastructure
                     • Prévisibilité et anticipation des coûts
                     • PoC et Expérimentation souvent nécessaires pour les projets Legacy
                   Eviter l’adhérence à l’infrastructure ou en maitriser les risques
                     • Nombreuses fonctionnalités alléchantes : DynamoDB, ELB, RDS, CloudFormation, BeansTalk...
                     • Attention à toujours bien maîtriser le processus de réversibilité ou en tout cas en avoir conscience




                                                                       17
mardi 12 juin 12
Supervision
                   Vers un Système Hybride AWS / Supervision Classique
                       Supervision de l’Infrastructure & Supervision Applicative
                       Nagios / Centreon ou équivalent (Zabbix...)

                       Auto-Scalling
                       Cloud Watch

                       Alertes & Notifications
                       Nagios / Centreon ou Simple Notification Service

                   Pas de changement majeur sur le sujet, l’enjeu est critique :
                     • Conserver une homogénéité des outils entre plateforme Cloud et plateforme
                        traditionnelle
                     • Maitriser finement les compteurs de supervision (Applicatifs, Bases de données, Scénario
                        utilisateurs...)
                     • Auto-déclarer les instances dans le monitoring

                                                                     18
mardi 12 juin 12
Sauvegardes
           Plateforme Traditionnelle
                   •   Gestion d’une plateforme de sauvegardes sur disques ou sur bandes
                   •   Logiciel de backup type Amanda, Bacula, Dataprotector...
                   •   Déduplication
                   •   Gestion manuelle de l’archivage si bandes
                   •   Gestion de l’externalisation des données
                   •   Plan de backup sur mesure : Incrémental quotidien, Full hebdomadaire, Rétention 3 semaines

           Plateforme Cloud
                   • Outils Amazon
                    ‣ Snapshot des EBS : attention Snapshot n’est pas un backup
                    ‣ Storage Gateway
                    ‣ S3
                   • Solution Home Made
                    ‣ Déploiement d’un logiciel de sauvegarde sur instance EC2
                    ‣ Gestion de backups sur mesure sur montage EBS
                    ‣ Envoi des archives sur S3

                                                                    19
mardi 12 juin 12
MCO dans le Cloud
             Remplacer au lieu de Réparer
                   • Utilisation des AZ
                   • Lancement et configuration d’instances automatisée :
                     ‣ Images : AMI, MarketPlace, CloudFormation
                     ‣ Gestion de la configuration : Puppet, Chef, CfEngine
                     ‣ Versioning et déploiement du code : GIT, SVN, Capistrano
             Design for Failure
                   • Plateforme traditionnelle : la HA est confiée à l’infrastructure
                   • Plateforme AWS : la HA est confiée à l’application
             Complexité de diagnostic
                   • Détection d’un incident applicatif : similaire à une plateforme traditionnelle si utilisation d’outils
                       standards
                   •   Détection d’un incident infrastructure (réseau, serveur, datacenter) : peut être complexe si l’incident
                       n’est pas un incident majeur



                                                                        20
mardi 12 juin 12
Exploitation courante

         Les concepts clés de l’exploitation dans le Cloud :
                   • Infrastructure As A Code : manipulation des ressources physiques via le code
                   • Reproductibilité des actions rend le déploiement des services plus fiable
                   • Centralisation des configurations (Puppet) permet une cohérence dans les
                     déploiements et une meilleure gestion des évolutions
                   • Rapprochement avec les équipes de développement : DevOps
                   • Automatisation, Automatisation, Automatisation

                       L’infogérance sur un périmètre mouvant doit s’adapter en proposant un modèle de tarification à l’usage
                       (infogérance par heure et par instance) et auto-déclaratif en fonction de la taille du périmètre




                                                                   21
mardi 12 juin 12
Sécurité
           Accès aux machines
                   • Les méthodes restent les mêmes qu’en plateforme traditionnelle : SSH avec Clé
                   • Dans notre cas, homogénéisation des plateformes via des paquets Debian maison intégrant nos
                certificats
           IAM : un sujet à part entière
             • Gestion des droits et de l’identité
             • Double Authentification
             • Agrégation Facturation
           Firewalling
                   • Security Groups : Ouverture et Fermeture de ports en fonction d’IP Sources (pas de NAT)
                   • Possibilité de gérer un service Firewall dans une instance : complexe du fait de la gestion des IP
                   • Impossibilité de disposer d’un équipement dédié
           Des manques pouvant poser problème :
             • Pas de boitier de sécurité dédié
             • Pas de sonde anti-intrusion
             • Demande spécifique nécessaire pour réaliser un test d’intrusion
             • Pas de possibilité de mettre en oeuvre une liaison dédiée (hors gros projet)


                                                                      22
mardi 12 juin 12
Réseau
           Gestion du réseau : des différences importantes
                   •   Réseau à plat - Pas de maîtrise sur les zones de sécurité (Vlan, Subnet...)
                   •   IP Publiques flottantes mais possibilité de réserver un nombre d’IP limité
                   •   IP Privées flottantes : difficulté pour les services d’administration
                   •   VPC permet de gérer un réseau privé mais il devient nécessaire de gérer soit même son routage
                   •   Pas de maitrise sur les latences et les performances réseaux

           Liens Privés et Sécurisés
              • Direct Connect offre une possibilité de lien dédié (réservé aux projets importants)
              • Possibilité de monter des tunnels VPN permanents via EC2 ou VPC pour sécuriser l’administration
           Loadbalancer
             • AWS offre un service clé en main : ELB
             • ELB offre une grande richesse fonctionnelle : Niveau 7, Terminaisons SSL, APIs....
             • Avec des limitations : algorithme de répartition de charge, élasticité lors d’un Pic majeur
             • Il est également possible de gérer un service Zeus ou HA Proxy dans une instance, mais les IPs
               flottantes peuvent rendre la gestion complexe



                                                                    23
mardi 12 juin 12
Base documentaire


               Des questions simples dans le monde du On Demand
                • Inventaire dynamique des instances actives ?
                • Connaissance des IPs affectées aux différentes instances ?
                • Spécifications hard et soft des instances actives (CMDB...) ?
                • Rédaction et suivi dynamique de la matrice des flux ?




                                                     24
mardi 12 juin 12
Performance
           Des points forts indéniables par rapport à une plateforme traditionnelle...
                   • Accès à une puissance quasi-illimité en quelques minutes
                   • Elasticité horizontale et verticale pour accompagner les montée en charge
                   • Ressources disponibles sur tous les continents pour une distribution intelligente des traitements et des
                       contenus

           ....Associés à des contraintes et limitations à prendre en compte
                   •   I/O Disques (notamment sur EBS - Tips : Raid 10 de volumes EBS)
                   •   Pas d’engagement sur les performances I/O sauf sur DynamoDB
                   •   Pose des problèmes en avant-vente et dimensionnement d’infrastructures
                   •   Variations de performance selon l’heure ou le jour

           Performance réseau
                   • Entre les régions le trafic passe par internet comme ça peut être le cas entre 2 DC privés
                   • Entre 2 AZ d’une même région les performances sont mieux maitrisées mais induisent encore une
                       latence à prendre compte (exemple : Web sur AZ1 et SQL sur AZ2)




                                                                      25
mardi 12 juin 12
SLA

           Engagements de Qualité de Service et Pénalités

                   • Des engagements de disponibilité annuelle essentiellement (Durabilité S3)
                   • Associés à des pénalités relativement faibles

           Il est nécessaire de compléter ce dispositif

                   •   Garantie Temps d’Intervention
                   •   Garantie Temps de Rétablissement
                   •   Engagements de Performance
                   •   Engagements Durée Maximale Perte de Données
                   •   Engagements sur le Traitement des Demandes : modification, restauration...




                                                                 26
mardi 12 juin 12
Pour aller plus loin

           Automatiser , Automatiser, Automatiser :
                   • Agent d’auto-déclaration des instances dans les outils d’administration (monitoring, backup, ticket,
                       inventaire...)
                   •   Packager les outils d’administration pour sa distribution préférée
                   •   Utiliser des outils d’abstraction et de pilotage : RightScale, FOG

           Plateformes Hybrides
                   • Liaison directe 1 Gbps entre DC eNovance et plateforme AWS
                   • Le meilleur des 2 mondes :
                     - Liens dédiés possibles avec le DC du client
                     - Serveur Backoffice privés
                     - Hardware sur-mesure I/O intensif
                     - Elasticité et capacité de calcul illimité




                                                                        27
mardi 12 juin 12
Use Case Type
                                                    AZ2
                   AZ1
                                                                        Puppet Master
                                                                        SVN
                                                                        (Capistrano)
                         ELB

                                                                        Nagios Centron
                         Frontaux                                       Cacti / Munin
                         Varnish / Nginx

                         Serveurs d’application
                         Peu de sollicitation disques

                                                              Machines reproductibles / Jetables
                         Base NoSQL (MongoDB...)              Sollicitation Ram & CPU
                         Elastictité horizontale recherchée   Peu de sollicitation disques - Commit
                                                              Asynchrones


                                               28
mardi 12 juin 12
En synthèse

           L’administration système nécessite la même organisation
           Infogérance applicative, Astreinte, Supervision, Sauvegardes....

           Mais doit évoluer pour profiter pleinement des promesses du Cloud
           Gestion automatisée de la configuration, Auto-Scalling, Compétence développement, Pricing élastique....

           Tout en garantissant la réversibilité et l’homogénéité des outils en
           environnement hybride
           Limiter l’adhérence et utiliser des outils standards




                                                                   29
mardi 12 juin 12
Q&R


                   http://www.enovance.com             Raphaël Ferreira
                                                       T./ +33 1 49 70 99 72
                   http://twitter.com/enovance         M./ r.ferreira@enovance.com



                                                  30
mardi 12 juin 12

Más contenido relacionado

Destacado

Annex I full de registre de l'alumnat nouvingut
Annex I full de registre de l'alumnat nouvingutAnnex I full de registre de l'alumnat nouvingut
Annex I full de registre de l'alumnat nouvingut
Margalida Gili Alou
 
Les tic et les enseignants dans la même salle de classe
Les tic et les enseignants dans la même salle de classeLes tic et les enseignants dans la même salle de classe
Les tic et les enseignants dans la même salle de classe
Kengam78
 
Open Access & Pays en développement
Open Access &  Pays en développementOpen Access &  Pays en développement
Open Access & Pays en développement
Antonin Benoît DIOUF
 
Rapport de Stage de M1 SBM
Rapport de Stage de M1 SBMRapport de Stage de M1 SBM
Rapport de Stage de M1 SBM
Paul Adami
 
URBANIA 33 HIVER MERCIER Reportage Scandinavie
URBANIA 33 HIVER MERCIER Reportage ScandinavieURBANIA 33 HIVER MERCIER Reportage Scandinavie
URBANIA 33 HIVER MERCIER Reportage Scandinavie
H Mercier
 
Fairecompagnie
FairecompagnieFairecompagnie
Fairecompagnie
Fing
 

Destacado (18)

Valtech - Cloud computing - Infrastructure as a Service
Valtech - Cloud computing - Infrastructure as a ServiceValtech - Cloud computing - Infrastructure as a Service
Valtech - Cloud computing - Infrastructure as a Service
 
Data Fabric (French)
Data Fabric (French) Data Fabric (French)
Data Fabric (French)
 
Bibliothèque publique & Communauté
Bibliothèque publique & CommunautéBibliothèque publique & Communauté
Bibliothèque publique & Communauté
 
Reaction_111_FR
Reaction_111_FRReaction_111_FR
Reaction_111_FR
 
Capitulo 1 Definiciones Preliminares2007
Capitulo 1   Definiciones Preliminares2007Capitulo 1   Definiciones Preliminares2007
Capitulo 1 Definiciones Preliminares2007
 
Admis ief linguere ar
Admis ief linguere arAdmis ief linguere ar
Admis ief linguere ar
 
Annex I full de registre de l'alumnat nouvingut
Annex I full de registre de l'alumnat nouvingutAnnex I full de registre de l'alumnat nouvingut
Annex I full de registre de l'alumnat nouvingut
 
Les tic et les enseignants dans la même salle de classe
Les tic et les enseignants dans la même salle de classeLes tic et les enseignants dans la même salle de classe
Les tic et les enseignants dans la même salle de classe
 
Presentation
PresentationPresentation
Presentation
 
Open Access & Pays en développement
Open Access &  Pays en développementOpen Access &  Pays en développement
Open Access & Pays en développement
 
Rapport de Stage de M1 SBM
Rapport de Stage de M1 SBMRapport de Stage de M1 SBM
Rapport de Stage de M1 SBM
 
Mes envols (2)
Mes envols (2)Mes envols (2)
Mes envols (2)
 
URBANIA 33 HIVER MERCIER Reportage Scandinavie
URBANIA 33 HIVER MERCIER Reportage ScandinavieURBANIA 33 HIVER MERCIER Reportage Scandinavie
URBANIA 33 HIVER MERCIER Reportage Scandinavie
 
Identite(s) Numérique(s) - Présentation à la FDJ, septembre 2013
Identite(s) Numérique(s) - Présentation à la FDJ, septembre 2013Identite(s) Numérique(s) - Présentation à la FDJ, septembre 2013
Identite(s) Numérique(s) - Présentation à la FDJ, septembre 2013
 
Diaporama Synthese Restitution Eg Economie 22 Fev 2010
Diaporama Synthese Restitution Eg Economie 22 Fev 2010Diaporama Synthese Restitution Eg Economie 22 Fev 2010
Diaporama Synthese Restitution Eg Economie 22 Fev 2010
 
Ciutats Europees
Ciutats EuropeesCiutats Europees
Ciutats Europees
 
Fairecompagnie
FairecompagnieFairecompagnie
Fairecompagnie
 
Developper les ventes directes des hotels
Developper les ventes directes des hotelsDevelopper les ventes directes des hotels
Developper les ventes directes des hotels
 

Más de Publicis Sapient Engineering

Más de Publicis Sapient Engineering (20)

XebiCon'18 - L'algorithme de reconnaissance de formes par le cerveau humain
XebiCon'18 - L'algorithme de reconnaissance de formes par le cerveau humainXebiCon'18 - L'algorithme de reconnaissance de formes par le cerveau humain
XebiCon'18 - L'algorithme de reconnaissance de formes par le cerveau humain
 
Xebicon'18 - IoT: From Edge to Cloud
Xebicon'18 - IoT: From Edge to CloudXebicon'18 - IoT: From Edge to Cloud
Xebicon'18 - IoT: From Edge to Cloud
 
Xebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveur
Xebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveurXebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveur
Xebicon'18 - Spark in jail : conteneurisez vos traitements data sans serveur
 
XebiCon'18 - Modern Infrastructure
XebiCon'18 - Modern InfrastructureXebiCon'18 - Modern Infrastructure
XebiCon'18 - Modern Infrastructure
 
XebiCon'18 - La Web App d'aujourd'hui et de demain : état de l'art et bleedin...
XebiCon'18 - La Web App d'aujourd'hui et de demain : état de l'art et bleedin...XebiCon'18 - La Web App d'aujourd'hui et de demain : état de l'art et bleedin...
XebiCon'18 - La Web App d'aujourd'hui et de demain : état de l'art et bleedin...
 
XebiCon'18 - Des notebook pour le monitoring avec Zeppelin
XebiCon'18 - Des notebook pour le monitoring avec Zeppelin XebiCon'18 - Des notebook pour le monitoring avec Zeppelin
XebiCon'18 - Des notebook pour le monitoring avec Zeppelin
 
XebiCon'18 - Event Sourcing et RGPD, incompatibles ?
XebiCon'18 - Event Sourcing et RGPD, incompatibles ?XebiCon'18 - Event Sourcing et RGPD, incompatibles ?
XebiCon'18 - Event Sourcing et RGPD, incompatibles ?
 
XebiCon'18 - Deno, le nouveau NodeJS qui inverse la tendance ?
XebiCon'18 - Deno, le nouveau NodeJS qui inverse la tendance ?XebiCon'18 - Deno, le nouveau NodeJS qui inverse la tendance ?
XebiCon'18 - Deno, le nouveau NodeJS qui inverse la tendance ?
 
XebiCon'18 - Boostez vos modèles avec du Deep Learning distribué
XebiCon'18 - Boostez vos modèles avec du Deep Learning distribuéXebiCon'18 - Boostez vos modèles avec du Deep Learning distribué
XebiCon'18 - Boostez vos modèles avec du Deep Learning distribué
 
XebiCon'18 - Comment j'ai développé un jeu vidéo avec des outils de développe...
XebiCon'18 - Comment j'ai développé un jeu vidéo avec des outils de développe...XebiCon'18 - Comment j'ai développé un jeu vidéo avec des outils de développe...
XebiCon'18 - Comment j'ai développé un jeu vidéo avec des outils de développe...
 
XebiCon'18 - Les utilisateurs finaux, les oubliés de nos produits !
XebiCon'18 - Les utilisateurs finaux, les oubliés de nos produits !XebiCon'18 - Les utilisateurs finaux, les oubliés de nos produits !
XebiCon'18 - Les utilisateurs finaux, les oubliés de nos produits !
 
XebiCon'18 - Comment fausser l'interprétation de vos résultats avec des dataviz
XebiCon'18 - Comment fausser l'interprétation de vos résultats avec des datavizXebiCon'18 - Comment fausser l'interprétation de vos résultats avec des dataviz
XebiCon'18 - Comment fausser l'interprétation de vos résultats avec des dataviz
 
XebiCon'18 - Le développeur dans la Pop Culture
XebiCon'18 - Le développeur dans la Pop Culture XebiCon'18 - Le développeur dans la Pop Culture
XebiCon'18 - Le développeur dans la Pop Culture
 
XebiCon'18 - Architecturer son application mobile pour la durabilité
XebiCon'18 - Architecturer son application mobile pour la durabilitéXebiCon'18 - Architecturer son application mobile pour la durabilité
XebiCon'18 - Architecturer son application mobile pour la durabilité
 
XebiCon'18 - Sécuriser son API avec OpenID Connect
XebiCon'18 - Sécuriser son API avec OpenID ConnectXebiCon'18 - Sécuriser son API avec OpenID Connect
XebiCon'18 - Sécuriser son API avec OpenID Connect
 
XebiCon'18 - Structuration du Temps et Dynamique de Groupes, Théorie organisa...
XebiCon'18 - Structuration du Temps et Dynamique de Groupes, Théorie organisa...XebiCon'18 - Structuration du Temps et Dynamique de Groupes, Théorie organisa...
XebiCon'18 - Structuration du Temps et Dynamique de Groupes, Théorie organisa...
 
XebiCon'18 - Spark NLP, un an après
XebiCon'18 - Spark NLP, un an aprèsXebiCon'18 - Spark NLP, un an après
XebiCon'18 - Spark NLP, un an après
 
XebiCon'18 - La sécurité, douce illusion même en 2018
XebiCon'18 - La sécurité, douce illusion même en 2018XebiCon'18 - La sécurité, douce illusion même en 2018
XebiCon'18 - La sécurité, douce illusion même en 2018
 
XebiCon'18 - Utiliser Hyperledger Fabric pour la création d'une blockchain pr...
XebiCon'18 - Utiliser Hyperledger Fabric pour la création d'une blockchain pr...XebiCon'18 - Utiliser Hyperledger Fabric pour la création d'une blockchain pr...
XebiCon'18 - Utiliser Hyperledger Fabric pour la création d'une blockchain pr...
 
XebiCon'18 - Ce que l'histoire du métro Parisien m'a enseigné sur la création...
XebiCon'18 - Ce que l'histoire du métro Parisien m'a enseigné sur la création...XebiCon'18 - Ce que l'histoire du métro Parisien m'a enseigné sur la création...
XebiCon'18 - Ce que l'histoire du métro Parisien m'a enseigné sur la création...
 

Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

  • 1. Le métier d’Ops sur AWS Raphaël Ferreira - CoFounder @ enovance 22 mai 2012 1 mardi 12 juin 12
  • 2. Nouvelle génération de services d’Hébergement & d’Infogérance Infrastructures Cloud Open Source OpenStack, Puppet, Stockage Distribué Ceph, Multi-Cloud Management 24x7x365 eNoCloud, AWS Partner, RackspaceCloud Partner, Peer1 Partner Amélioration de l’expérience utilisateurs Haute Performance, Haute Disponibilité, Agrégation de Cloud & CDN, Monitoring Performance Web, Mobile & Big Data Elasticité, Réactivité, Distribution internationale, Performance, Résilience 2 mardi 12 juin 12
  • 3. Expertise 3 mardi 12 juin 12
  • 4. Paris & Montreal • Equipes bilingues Anglais - Français • Maintiens en conditions opérationnelles : 24x7x365 • Exploitation & Intégration : 09h00 - 01h00 • Effectifs : 25 personnes (2/3 techniques) 4 mardi 12 juin 12
  • 5. Certifications Organisation, Process & Méthodologie ITIL V3, ISO 9001-2008, ISO 20000-1 OSEO Innovation, Jeune Entreprise Innovante, Innovation, Recherche & Développement Labellisé Systematic Environnement ISO 14000 Santé et Sécurité au travail OHSAS 18001 ISO 27001, ISO 9001, ISO 14001, OHSAS Datacenters 18001, PCI-DSS 5 mardi 12 juin 12
  • 6. Références Weekendesk : hébergement et infogérance de la plateforme eCommerce et agrégation de CDN Kreactive : hébergement d’applications mobiles et facebook à plus de 4000 requêtes simultanées Streamlike : diffusion des vidéos Louis Vuitton, PSA, Alston... dans le monde entier Motricity : Datacenter européen du groupe pour la gestion des régies publicitaires et applications mobiles de Nokia, TF1, Canal Plus, Bouygues Telecom.... LeGuide.com : Accélération des performances du premier comparateur de prix en Europe Total Immersion : Plateforme de réalité augmentée sur AWS à destination de Ray Ban, Repsol, Afflelou... 6 mardi 12 juin 12
  • 7. Save The Date Jeudi 31 Mai OpenStack in Action 2 Production Ready Paris Eurosite République eNoCloud : Lancement Officiel First OpenStack Public Cloud Paris Equinix & Telecity 3 7 mardi 12 juin 12
  • 8. Le métier d’Ops sur le Cloud Retour d’expérience sur un apprentissage continu, les difficultés rencontrées et les questions posées 8 mardi 12 juin 12
  • 9. Ops 2.0 We Design, Build and Run... Private Clouds Public Clouds On-premise Hébergé OpenStack Public Cloud OpenStack Starter Pack AWS Cloud EC2 OpenStack Private Cloud Rackspace Cloud + Automatisation - Monitoring - Sauvegardes - Haute Performance & Haute Disponibilité - Sécurité 9 mardi 12 juin 12
  • 10. Motivations Plateforme Plateforme Traditionnelle Cloud Elasticité - + Réactivité - Délais de mise en oeuvre - + Agilité - + Maîtrise de la performance + - Disponibilité = = Adaptations - Montée en compétence + - Investissement initial - + Coût d’exploitation = = 10 mardi 12 juin 12
  • 11. Dans les grandes lignes Aspects Techniques + Grande souplesse d’usage : démarrage et arrêt d’instances à volonté + APIs et Dashboard offrent un contrôle simple de l’infrastructure + Possibilité d’automatiser le provisioning et la gestion de l’infrastructure grâce à une abstraction forte des différentes ressources + Ressources quasi-illimitées - Opacité de l’infrastructure sous jacente - Adapter son besoin à l’infrastructure cloud et pas l’inverse - Impossibilité de sélectionner des composants hardware spécifiques - Impossibilité de mettre en oeuvre une interconnexion réseau spécifique 11 mardi 12 juin 12
  • 12. Dans les grandes lignes Aspects Financiers + Pas d’investissement initial + Coûts variables s’adaptant à la charge et pouvant donc varier en fonction de l’audience ou des revenus = Il existe en revanche des coûts incompressibles qui ne changent pas : Redondance des équipements Infogérance applicative et astreintes Outils de gestion d’infrastructures : monitoring, logs, sauvegardes, .... - Complexité dans prévision des coûts - Vigilance accrue pour la maîtrise des coûts 12 mardi 12 juin 12
  • 13. Vocabulaire spécifique Plateforme Plateforme Traditionnelle Cloud Datacenter, Baie, Rack Région, AZ Serveur Instance EC2 Stockage VM, Stockage partagé ou mutualisé Stockage éphémère, EBS, S3 Ferme de serveurs frontaux Auto-Scalling Group Répartiteur de charge ELB Serveur de base de données RDS Plateforme de supervision CloudWatch Alertes et Notifications Simple Notification Service 13 mardi 12 juin 12
  • 14. Spécificités et limitations Des spécificités qui imposent de revoir les process et les habitudes • Gestion des limitations : nombre d’IP, nombre d’instances, nombre de loadbalancer.... • Adresses IP Privées flottantes • Préchauffage des ELB • .... Points souvent non bloquants mais apprentissage complexe 14 mardi 12 juin 12
  • 15. Le métier d’Ops Les bases du métier d’Ops • Plomberie : Rack, Cables et Tournevis • Installation, Déploiement, Configuration • Supervision & Monitoring • Sauvegardes • Maintiens en Conditions Opérationnelles • Exploitation courante & Intégration • Sécurité • Base documentaire / Référentiel Les évolutions • Exploiter les nouveaux outils proposer pour adapter automatique la plateforme à la charge • Modifier l’organisation et les profils de recrutement • Remonter dans les couches : orientation DevOps 15 mardi 12 juin 12
  • 16. Plomberie Plateforme Plateforme Traditionnelle Cloud Mise en Baie, Câblage, Etiquetage... : 2 heures Start nouvelle instance : 5 mn Boot PXE AMI - Market Place Maitrise des caractéristiques hardware Opacité - Unité EC2 - Variabilité dans le temps Maitrise du réseau d’interconnexion Latences inter-machines / inter-zones non maitrisées (1Gbps, 10Gbps, IB....) Transfert de données sur Internet / Envoi des données par Connexion de supports Physiques en direct support physique Intégration de liens privés dédiés VPC / Direct Connect (limité) 16 mardi 12 juin 12
  • 17. Déploiement & Configuration Administrateur système ou Architecte système ? • Implication en amont sur le design de l’architecture et l’adaptation des pratiques d’ingénierie logicielle. • Temps d’intégration plus longs pour mettre en place les dispositifs d’automatisations nécessaires puppet, auto-scalling.... Complexité du processus avant-vente • Design et dimensionnement complexes du fait de la non maîtrise de l’infrastructure • Prévisibilité et anticipation des coûts • PoC et Expérimentation souvent nécessaires pour les projets Legacy Eviter l’adhérence à l’infrastructure ou en maitriser les risques • Nombreuses fonctionnalités alléchantes : DynamoDB, ELB, RDS, CloudFormation, BeansTalk... • Attention à toujours bien maîtriser le processus de réversibilité ou en tout cas en avoir conscience 17 mardi 12 juin 12
  • 18. Supervision Vers un Système Hybride AWS / Supervision Classique Supervision de l’Infrastructure & Supervision Applicative Nagios / Centreon ou équivalent (Zabbix...) Auto-Scalling Cloud Watch Alertes & Notifications Nagios / Centreon ou Simple Notification Service Pas de changement majeur sur le sujet, l’enjeu est critique : • Conserver une homogénéité des outils entre plateforme Cloud et plateforme traditionnelle • Maitriser finement les compteurs de supervision (Applicatifs, Bases de données, Scénario utilisateurs...) • Auto-déclarer les instances dans le monitoring 18 mardi 12 juin 12
  • 19. Sauvegardes Plateforme Traditionnelle • Gestion d’une plateforme de sauvegardes sur disques ou sur bandes • Logiciel de backup type Amanda, Bacula, Dataprotector... • Déduplication • Gestion manuelle de l’archivage si bandes • Gestion de l’externalisation des données • Plan de backup sur mesure : Incrémental quotidien, Full hebdomadaire, Rétention 3 semaines Plateforme Cloud • Outils Amazon ‣ Snapshot des EBS : attention Snapshot n’est pas un backup ‣ Storage Gateway ‣ S3 • Solution Home Made ‣ Déploiement d’un logiciel de sauvegarde sur instance EC2 ‣ Gestion de backups sur mesure sur montage EBS ‣ Envoi des archives sur S3 19 mardi 12 juin 12
  • 20. MCO dans le Cloud Remplacer au lieu de Réparer • Utilisation des AZ • Lancement et configuration d’instances automatisée : ‣ Images : AMI, MarketPlace, CloudFormation ‣ Gestion de la configuration : Puppet, Chef, CfEngine ‣ Versioning et déploiement du code : GIT, SVN, Capistrano Design for Failure • Plateforme traditionnelle : la HA est confiée à l’infrastructure • Plateforme AWS : la HA est confiée à l’application Complexité de diagnostic • Détection d’un incident applicatif : similaire à une plateforme traditionnelle si utilisation d’outils standards • Détection d’un incident infrastructure (réseau, serveur, datacenter) : peut être complexe si l’incident n’est pas un incident majeur 20 mardi 12 juin 12
  • 21. Exploitation courante Les concepts clés de l’exploitation dans le Cloud : • Infrastructure As A Code : manipulation des ressources physiques via le code • Reproductibilité des actions rend le déploiement des services plus fiable • Centralisation des configurations (Puppet) permet une cohérence dans les déploiements et une meilleure gestion des évolutions • Rapprochement avec les équipes de développement : DevOps • Automatisation, Automatisation, Automatisation L’infogérance sur un périmètre mouvant doit s’adapter en proposant un modèle de tarification à l’usage (infogérance par heure et par instance) et auto-déclaratif en fonction de la taille du périmètre 21 mardi 12 juin 12
  • 22. Sécurité Accès aux machines • Les méthodes restent les mêmes qu’en plateforme traditionnelle : SSH avec Clé • Dans notre cas, homogénéisation des plateformes via des paquets Debian maison intégrant nos certificats IAM : un sujet à part entière • Gestion des droits et de l’identité • Double Authentification • Agrégation Facturation Firewalling • Security Groups : Ouverture et Fermeture de ports en fonction d’IP Sources (pas de NAT) • Possibilité de gérer un service Firewall dans une instance : complexe du fait de la gestion des IP • Impossibilité de disposer d’un équipement dédié Des manques pouvant poser problème : • Pas de boitier de sécurité dédié • Pas de sonde anti-intrusion • Demande spécifique nécessaire pour réaliser un test d’intrusion • Pas de possibilité de mettre en oeuvre une liaison dédiée (hors gros projet) 22 mardi 12 juin 12
  • 23. Réseau Gestion du réseau : des différences importantes • Réseau à plat - Pas de maîtrise sur les zones de sécurité (Vlan, Subnet...) • IP Publiques flottantes mais possibilité de réserver un nombre d’IP limité • IP Privées flottantes : difficulté pour les services d’administration • VPC permet de gérer un réseau privé mais il devient nécessaire de gérer soit même son routage • Pas de maitrise sur les latences et les performances réseaux Liens Privés et Sécurisés • Direct Connect offre une possibilité de lien dédié (réservé aux projets importants) • Possibilité de monter des tunnels VPN permanents via EC2 ou VPC pour sécuriser l’administration Loadbalancer • AWS offre un service clé en main : ELB • ELB offre une grande richesse fonctionnelle : Niveau 7, Terminaisons SSL, APIs.... • Avec des limitations : algorithme de répartition de charge, élasticité lors d’un Pic majeur • Il est également possible de gérer un service Zeus ou HA Proxy dans une instance, mais les IPs flottantes peuvent rendre la gestion complexe 23 mardi 12 juin 12
  • 24. Base documentaire Des questions simples dans le monde du On Demand • Inventaire dynamique des instances actives ? • Connaissance des IPs affectées aux différentes instances ? • Spécifications hard et soft des instances actives (CMDB...) ? • Rédaction et suivi dynamique de la matrice des flux ? 24 mardi 12 juin 12
  • 25. Performance Des points forts indéniables par rapport à une plateforme traditionnelle... • Accès à une puissance quasi-illimité en quelques minutes • Elasticité horizontale et verticale pour accompagner les montée en charge • Ressources disponibles sur tous les continents pour une distribution intelligente des traitements et des contenus ....Associés à des contraintes et limitations à prendre en compte • I/O Disques (notamment sur EBS - Tips : Raid 10 de volumes EBS) • Pas d’engagement sur les performances I/O sauf sur DynamoDB • Pose des problèmes en avant-vente et dimensionnement d’infrastructures • Variations de performance selon l’heure ou le jour Performance réseau • Entre les régions le trafic passe par internet comme ça peut être le cas entre 2 DC privés • Entre 2 AZ d’une même région les performances sont mieux maitrisées mais induisent encore une latence à prendre compte (exemple : Web sur AZ1 et SQL sur AZ2) 25 mardi 12 juin 12
  • 26. SLA Engagements de Qualité de Service et Pénalités • Des engagements de disponibilité annuelle essentiellement (Durabilité S3) • Associés à des pénalités relativement faibles Il est nécessaire de compléter ce dispositif • Garantie Temps d’Intervention • Garantie Temps de Rétablissement • Engagements de Performance • Engagements Durée Maximale Perte de Données • Engagements sur le Traitement des Demandes : modification, restauration... 26 mardi 12 juin 12
  • 27. Pour aller plus loin Automatiser , Automatiser, Automatiser : • Agent d’auto-déclaration des instances dans les outils d’administration (monitoring, backup, ticket, inventaire...) • Packager les outils d’administration pour sa distribution préférée • Utiliser des outils d’abstraction et de pilotage : RightScale, FOG Plateformes Hybrides • Liaison directe 1 Gbps entre DC eNovance et plateforme AWS • Le meilleur des 2 mondes : - Liens dédiés possibles avec le DC du client - Serveur Backoffice privés - Hardware sur-mesure I/O intensif - Elasticité et capacité de calcul illimité 27 mardi 12 juin 12
  • 28. Use Case Type AZ2 AZ1 Puppet Master SVN (Capistrano) ELB Nagios Centron Frontaux Cacti / Munin Varnish / Nginx Serveurs d’application Peu de sollicitation disques Machines reproductibles / Jetables Base NoSQL (MongoDB...) Sollicitation Ram & CPU Elastictité horizontale recherchée Peu de sollicitation disques - Commit Asynchrones 28 mardi 12 juin 12
  • 29. En synthèse L’administration système nécessite la même organisation Infogérance applicative, Astreinte, Supervision, Sauvegardes.... Mais doit évoluer pour profiter pleinement des promesses du Cloud Gestion automatisée de la configuration, Auto-Scalling, Compétence développement, Pricing élastique.... Tout en garantissant la réversibilité et l’homogénéité des outils en environnement hybride Limiter l’adhérence et utiliser des outils standards 29 mardi 12 juin 12
  • 30. Q&R http://www.enovance.com Raphaël Ferreira T./ +33 1 49 70 99 72 http://twitter.com/enovance M./ r.ferreira@enovance.com 30 mardi 12 juin 12