Segunda parte del Taller "Monta una Infraestructura Big Data para tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea en Enpresa Digitala. En esta segunda parte, se aborda la instalación de un cluster mediante Cloudera Manager 5
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
Tercera y última sesión del curso "Monta una Infraestructura para Big Data en tu Empresa" impartida por Urko Zurutuza de Mondragon Unibertsitatea para Enpresa Digitala. En esta sesión se muestran ejercicios prácticos y guiados que darán pie a probar algunas de las herramientas que dispone la distribucion Hadoop Cloudera CDH5.
Tutorial Introductorio a Big Data, Hadoop y sus tecnologías asociadas (Hive, Pig, HBase, HDFS), etc. Presentado en el XVIII Congreso Iberoamericano de Ingenieria del Software (CIBSE). Peru. Lima. Abril del 2015.
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
Primera Sesión sobre el Curso de Enpresa Digitala "Monta una Infraestructura Big Data en tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea. Hablaremos de Hadoop y de su ecosistema de herramientas.
Taller sobre la creación de un clúster de Apache Hadoop y aplicaciones de su entorno de las XIII Xornadas Libres de Gpul en la Universidade da Coruña http://gpul.es/e/2014/xornadas-libres/
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
Tercera y última sesión del curso "Monta una Infraestructura para Big Data en tu Empresa" impartida por Urko Zurutuza de Mondragon Unibertsitatea para Enpresa Digitala. En esta sesión se muestran ejercicios prácticos y guiados que darán pie a probar algunas de las herramientas que dispone la distribucion Hadoop Cloudera CDH5.
Tutorial Introductorio a Big Data, Hadoop y sus tecnologías asociadas (Hive, Pig, HBase, HDFS), etc. Presentado en el XVIII Congreso Iberoamericano de Ingenieria del Software (CIBSE). Peru. Lima. Abril del 2015.
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
Primera Sesión sobre el Curso de Enpresa Digitala "Monta una Infraestructura Big Data en tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea. Hablaremos de Hadoop y de su ecosistema de herramientas.
Taller sobre la creación de un clúster de Apache Hadoop y aplicaciones de su entorno de las XIII Xornadas Libres de Gpul en la Universidade da Coruña http://gpul.es/e/2014/xornadas-libres/
En esta presentación se incentiva el desarrollo de aplicaciones para la resolución de problemas comunes de hoy en día que implican el manejo de grandes volúmenes de información, desde el enfoque de Big Data.
Se propone la combinación de OpenStack y Hadoop para apoyar el desarrollo de soluciones, que permitan extraer información valiosa a partir de grandes volúmenes de datos.
Optimización de aplicaciones web con base de datos NoSQL In-MemoryGonzalo Chacaltana
Presentación que relata las distintas técnicas para optimizar una aplicación web. El objetivo del documento consiste en introducir al participante en los conceptos sobre escalabilidad horizontal, instalar y trabajar con Redis como base de datos NoSQL In-Memory y aplicar un ejemplo de conectarnos con Redis desde una aplicación PHP.
MySQL Cluster: El ‘qué’ y el ‘cómo’.
Una introducción en Español a MySQL Cluster, tanto Community como Carrier Grade Edition.
Con ejemplos técnicos de como instalar y sacar el mayor provecho de tu MySQL Cluster.
Se trata de una introducción, donde no se entra en cuestiones de asignación de cores a cada componente, réplica geográfica, resolución de conflictos 'built-in', réplicas de NDB (Cluster) a InnoDB, etc.
MySQL A Technical Introduction in Spanish.
Some basics around getting started with MySQL if your database competency lies in another technology.
Based on another presentation, it steps further into installation options, configuration and basic admin tasks.
Big Data no es una moda ni algo que esté por venir. Gran parte de las organizaciones ya cuentan con bases de datos tan grandes que requieren usar herramientas especiales. Ésta presentación nos ayuda a dar el primer paso, a conocer que en realidad qué es y como funciona, así como a adentrarnos en este maravilloso mundo de los datos al por mayor.
En esta presentación se incentiva el desarrollo de aplicaciones para la resolución de problemas comunes de hoy en día que implican el manejo de grandes volúmenes de información, desde el enfoque de Big Data.
Se propone la combinación de OpenStack y Hadoop para apoyar el desarrollo de soluciones, que permitan extraer información valiosa a partir de grandes volúmenes de datos.
Optimización de aplicaciones web con base de datos NoSQL In-MemoryGonzalo Chacaltana
Presentación que relata las distintas técnicas para optimizar una aplicación web. El objetivo del documento consiste en introducir al participante en los conceptos sobre escalabilidad horizontal, instalar y trabajar con Redis como base de datos NoSQL In-Memory y aplicar un ejemplo de conectarnos con Redis desde una aplicación PHP.
MySQL Cluster: El ‘qué’ y el ‘cómo’.
Una introducción en Español a MySQL Cluster, tanto Community como Carrier Grade Edition.
Con ejemplos técnicos de como instalar y sacar el mayor provecho de tu MySQL Cluster.
Se trata de una introducción, donde no se entra en cuestiones de asignación de cores a cada componente, réplica geográfica, resolución de conflictos 'built-in', réplicas de NDB (Cluster) a InnoDB, etc.
MySQL A Technical Introduction in Spanish.
Some basics around getting started with MySQL if your database competency lies in another technology.
Based on another presentation, it steps further into installation options, configuration and basic admin tasks.
Big Data no es una moda ni algo que esté por venir. Gran parte de las organizaciones ya cuentan con bases de datos tan grandes que requieren usar herramientas especiales. Ésta presentación nos ayuda a dar el primer paso, a conocer que en realidad qué es y como funciona, así como a adentrarnos en este maravilloso mundo de los datos al por mayor.
Presentación durante el XXIX Encuentro de Telecomunicaciones y Economía Digital a cargo de Juan Angulo López-Dóriga, Director de Business Applications Services FUJITSU
Big Data - Infraestrucutra de BI para soluciones de BIDatalytics
Presentación de Infobright dada durante el foro "Las Dimensiones del BI" en Medellín (COL), donde se presentó la problemática actual de Big Data Analytics y las limitaciones que tienen las bases de datos transaccionales (IBM DB2, Oracle, Sybase, MySQL, PostgreSQL, etc.) para afrontar esta situación.
Redesigned passenger centric airport and aircraft interiors16032017PASSME Community
AlmaDesign presented latest developments in redesigned passenger-centric aircraft and airport interiors at the PASSME CoP meeting at the Passenger Terminal Expo, Amsterdam, March 2017.
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
Esta presentación es la que utilicé como ponente de Mondragon Unibertsitatea para introducir al público asistente a la jornada de "Mitos y Realidades del Big Data" de Enpresa Digitala en su nodo de Goiru (http://www.euskadinnova.net/es/enpresa-digitala/agenda/mitos-realidades-data/8956.aspx?utm_source=rss_feed&utm_medium=rss&utm_campaign=accesos_rss). Se trata de una presentación donde se explican qué es y qué no es Big Data, enfocando sobre todo en la parte de almacenamiento, infraestructura, y análisis de los datos.
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Socialmetrix
Socialmetrix lleva 6 años desarrollando soluciones para capturar, limpiar, organizar, procesar, almacenar y presentar información.
Los desafíos involucraron siempre seguir escalando en volumen de procesamiento y las funcionalidades a nuestros clientes.
Estas directivas nos llevaron hacia una búsqueda de soluciones innovadoras y tecnologías que nos permitan competir en un mercado global manteniendo la inversión y los costos bajo control.
Esta charla presenta las técnicas y tecnologías involucradas en el desarrollo de nuestros productos junto con los errores que cometimos y lecciones que aprendimos durante el desarrollo.
Ronald Grossman, of PASSME partner organisation NLR update PASSME CoP members on his latest research in to a real-time passenger-centric forecast system. This will allow airlines and airports to better predict passenger movements and make the journey more seamless for passengers.
Permite la separación del hardware y el software, lo cual posibilita a su vez que múltiples sistemas operativos, aplicaciones o plataformas se ejecuten simultáneamente en un solo servidor.
Técnicas:
Full virtualización.
Paravirtualización.
Virtualización asistida por hardware.
Administración de e-mails, almacenamiento de información, organización por agendas, calendarios, contactos y tareas compartidas, etc.
Comúnmente conocemos redis como un sistema de caché distribuido que podemos usar en modo PaaS gracias a la plataforma de azure. Pero redis se define como un sistema de base de datos NoSql de tipo clave valor, que funciona perfectamente como memoria caché, pero que además tiene muchas características adcionales. A lo largo de esta charla comentaremos las posibilidades de este servicio y cómo podemos explotarlas.
Docker para Data Scientist - Master en Data Science URJCMicael Gallego
Presentación de Docker en el Master en Data Science de la URJC en la asignatura de Arquitecturas en la nube. En esta asignatura hablamos de AWS, Azure, Docker, Kubernetes, Mesos
Todo lo que se necesita saber para usar Pacemaker como solución de alta disponibilidad en bases de datos.
Presentación dada en la conferencia MySQL NoSQL & Cloud Latin America en Buenos Aires el 15/10/2013.
Pues volvemos de nuevo a la carga con un nuevo meetup donde os vamos a contar cómo podeis optimizar al máximo los recursos que CloudHub nos ofrece como por ejemplo:
1.- Saber dimensionar el número de operaciones por API
2.- Aplicar buenas prácticas para no saturar los recursos
3.- Aprovechar al máximo el 0.1 vCore
4.- Cuando escalar vertical y horizontalmente un API
5.- Utilizar herramientas de análisis de código como Sonar
MySQL de 1995 a 5.5
• Por que hace sentido usar Software Libre
• MySQL en mundo Oracle
• Instancias mysql, schemas, tablas...
• Múlti instancias mysqld
• Replicación semi-sync (cómo Facebook usa MySQL)
• Demo de Monitor: Advisors & Query Analyzer
• Preguntas y Respuestas
Pedro Andrade – Latin America & Caribbean Sales
Manuel Contreras – Latin America & Caribbean Consulting Engineer
MySQL Global Business Unit
2017-01-26 Internet Arriskuak: Andramendi Ikastola, Gurasoen saioaUrko Zurutuza
Aurkezpen hau Beasaingo Andramendi Ikastolako haurren gurasoei zuzendutakoa da, haiekin Internet-en dauden arriskuak ikusi eta ulertu ahal izateko: pribatutasuna, ziberbullying-a, grooming-a, sexting-a
2017-01-26 Internet Arriskuak: Andramendi Ikastola, haurren sesioaUrko Zurutuza
Aurkezpen hau Beasaingo Andramendi Ikastolako haurrei zuzendutakoa da, haiekin Internet-en dauden arriskuak ikusi eta ulertu ahal izateko: pribatutasuna, ziberbullying-a, grooming-a, sexting-a
Charla sobre los riesgos y recomendaciones de Internet y las redes sociales para los niños, impartida en la Ikastola Andramendi. Internet eta Sare Sozialen arriskuak aurrentzako.
¿Cómo encuentro al profesional especializado que necesito?Urko Zurutuza
Curso impartido en Tolosaldeko IKT astea, organizado por Lehiberri y Enpresa Digitala. Se describe el modo en que los candidatos pueden crear una identidad digital o marca personal en internet, y cómo se puede buscar y analizar un perfil deseado desde el punto de vista del reclutador.
Inteligencia Artificial y Ciberseguridad.pdfEmilio Casbas
Recopilación de los puntos más interesantes de diversas presentaciones, desde los visionarios conceptos de Alan Turing, pasando por la paradoja de Hans Moravec y la descripcion de Singularidad de Max Tegmark, hasta los innovadores avances de ChatGPT, y de cómo la IA está transformando la seguridad digital y protegiendo nuestras vidas.
Es un diagrama para La asistencia técnica o apoyo técnico es brindada por las compañías para que sus clientes puedan hacer uso de sus productos o servicios de la manera en que fueron puestos a la venta.
En este documento analizamos ciertos conceptos relacionados con la ficha 1 y 2. Y concluimos, dando el porque es importante desarrollar nuestras habilidades de pensamiento.
Sara Sofia Bedoya Montezuma.
9-1.
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Telefónica
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0xWord escrito por Ibón Reinoso ( https://mypublicinbox.com/IBhone ) con Prólogo de Chema Alonso ( https://mypublicinbox.com/ChemaAlonso ). Puedes comprarlo aquí: https://0xword.com/es/libros/233-big-data-tecnologias-para-arquitecturas-data-centric.html
Monta una Infraestructura Big Data para tu Empresa - Sesión II
1. Taller:
“Monta una infraestructura Big Data para
tu Empresa”
Urko Zurutuza
Dpto. Electrónica e Informática
Mondragon Goi Eskola Politeknikoa JMA
Mondragon Unibertsitatea
2. Agenda
• Día 1: Introducción al Big Data
• Día 2: Instalación de un cluster
Cloudera
• Día 3: Ejercicios sobre Cloudera
5. Sistemas Operativos
• RHEL, CentOS (5.7 64 bit, 6.4 64 bit, 6.4 en
modo Selinux, 6.5, 64 bit)
• Oracle Enterprise Linux with default kernel
and Unbreakable Enterprise Kernel, 64-bit
(5.6 (UEK R2), 6.4 (UEK R2), 6.5 (UEK R2,
UEK R3))
• SUSE Linux Enterprise Server 11, 64-bit
• Debian - Wheezy (7.0 and 7.1), Squeeze
(6.0) (deprecated), 64-bit
• Ubuntu - Trusty (14.04), Precise (12.04),
Lucid (10.04) (deprecated), 64-bit
6. JDK (Java Development Kit)
• Cloudera Manager:
– Oracle JDK 1.8.0_11
– Oracle JDK 1.7.0_67
– Oracle JDK 1.6.0_31
• Cloudera Manager debe estar ejecutado sobre una
versión JDK soportada por todos los clusters Hadoop
que gestiona. Ejemplo:
– Cloudera Manager 5 sobre la versión 1.6 de JDK solo
podrá gestionar clusters de CDH4.
– Para gestionar clusters CDH5 se necesita la versión 1.7 de
JDK.
– Si se desean gestionar clusters de CDH4 y CDH5 de forma
simultánea con Cloudera Manager 5, se deberá urilizar la
versión 1.7 de JDK.
7. Navegadores
• La Consola de Administración de Cloudera
Manager, la cual se utiliza para la
instalación, configuración, gestión y
monitorización de servicios, está soportada
por:
– Mozilla Firefox 11 y superiores
– Google Chrome
– Internet Explorer 9 y superiores
– Safari 5 y superiores
8. Bases de Datos
• Cloudera Manager Server almacena información sobre
los servicios configurados, la asignación de roles, un
histórico de la configuración, comandos, usuarios, y
procesos en ejecución en una base de datos propia.
• Cloudera Manager y los servicios que los soportan
pueden hacer uso de las siguientes bases de datos:
– MySQL - 5.0, 5.1, 5.5, y 5.6
– Oracle 11gR2
– PostgreSQL - 8.4, 9.1, 9.2, y 9.3
• Cloudera soporta las versiones de MySQL y PostgreSQL
que incluyen las distribuciones Linux en sus
instalaciones.
9. Espacio en Disco
• Cloudera Manager Server:
– 5 GB en la partición /var.
– 500 MB en la partición /usr.
– Para el uso de “parcels”, el espacio requerido depende del número de
“parcelas” que se descarguen a Cloudera Manger y se distribuyan a los
agentes. Ejemplo:
• CDH 4.6 - 700 MB por parcel;
• CDH 5 (que incluye Impala y Search) - 1.5 GB por parcel (empaquetado), 2 GB
por parcel (desempaquetado)
• Cloudera Impala - 200 MB por parcel
• Cloudera Search - 400 MB por parcel
• Cloudera Management Service – Las bases de datos de
monitorización se almacenan sobre la partición /var. Se recomienda
asegurar al menos 20 GB en esta partición.
• Agentes – Cada “parcel” desempaquetado requiere en los agentes
unas 3 veces el espacio del “parcel” descargado en Cloudera
Manager Server.
10. Espacio en Disco
• Cloudera Manager Server:
– 5 GB en la partición /var.
– 500 MB en la partición /usr.
– Para el uso de “parcels”, el espacio requerido depende del número de
“parcelas” que se descarguen a Cloudera Manger y se distribuyan a los
agentes. Ejemplo:
• CDH 4.6 - 700 MB por parcel;
• CDH 5 (que incluye Impala y Search) - 1.5 GB por parcel (empaquetado), 2 GB
por parcel (desempaquetado)
• Cloudera Impala - 200 MB por parcel
• Cloudera Search - 400 MB por parcel
• Cloudera Management Service – Las bases de datos de
monitorización se almacenan sobre la partición /var. Se recomienda
asegurar al menos 20 GB en esta partición.
• Agentes – Cada “parcel” desempaquetado requiere en los agentes
unas 3 veces el espacio del “parcel” descargado en Cloudera
Manager Server.
11. Memoria RAM
• Se recomiendan 4 GB para la mayoría de los
casos, siendo esto un requisito en el caso que
se use una base de datos Oracle.
• En caso contrario y en una instalación de
menos de 100 hosts, podría ser suficiente con
2 GB.
• Es conveniente reducir la cantidad máxima de
memoria que usa Cloudera Manager Server
para sus servicios Java.
14. Requisitos de Red
Cloudera Manager, CDH5 y
HUE funcionan
sobre Python 2.6 o
2.7
• Direccionamiento IP asignado de forma
estática
• Fichero /etc/hosts correctamente
formateado. Debe:
– Contener información persistente sobre los
nombres de los equipos y direcciones IP de
los nodos
– No debe contener nombres que contengan
mayúsculas
– No debe contener direcciones IP duplicadas
15. Requisitos de Red
Cloudera Manager, CDH5 y
HUE funcionan
sobre Python 2.6 o
2.7
• En la mayoría de los casos, Cloudera
Manager Server deberá tener acceso SSH a
los equipos del cluster para poder realizar la
instalación y despliegue de servicios.
• Además, se deberá proveer del usuario y
credencial de root, o proveer de un usuario
con permiso “sudo” sin que se pida la
contraseña.
• Una vez finalizada la instalación, se puede
cambiar la contraseña de root, o deshabilitar
el requisito anterior.
16. Requisitos de Red
Cloudera Manager, CDH5 y
HUE funcionan
sobre Python 2.6 o
2.7
• Asegurar que Security-Enhanced Linux
(SELinux) no bloquea ningún servicio o
acceso.
• IPv6 debe estar deshabilitado.
• Asegurarnos que no se están bloqueando
puertos mediante iptables o algún otro tipo de
firewall. El puerto 7189 debe estar accesible
una vez termine la instalación. El propio
Cloudera Manager recomienda en su
documentación los puertos que deben estar
abiertos.
18. Tipos de Instalación de Cloudera
Manager
• Un despliegue de Cloudera Manager
consiste en los siguientes componentes
Software:
– Oracle JDK
– Cloudera Manager Server y los paquetes
Agentes
– Software de base de datos que de soporte
– CDH y el software de servicios gestionados
19. Tipos de Instalación de Cloudera
Manager
• Despliegues de demostración y pruebas de
concepto totalmente automatizada:
– Oracle JDK,
– Cloudera Manager Server,
– PostgreSQL embebida,
– Cloudera Manager Agent,
– CDH,
– software de servicios gestionados en los hosts del
cluster.
– Además, configura las bases de datos de Cloudera
Manager Server y Hive.
20. Tipos de Instalación de Cloudera
Manager
• Despliegues de demostración y pruebas de
concepto totalmente automatizados
– Recomendada para pruebas de concepto y
demostraciones. No para despliegues de producción.
– Este sistema no está pensado para poder escalar las
bases de datos en el caso de que el cluster crezca
mucho.
– Los requisitos previos para esta instalación son:
• Darle la opción de abrir sesión en el host de Cloudera
Manager Server utilizando una cuenta root o una cuenta
donde el usuario tenga permisos sudo sin requerir la
contraseña.
• Permitir que Cloudera Manager Server tenga acceso uniforme
a SSH en todos los hosts del cluster.
• Todos los hosts deberán tener acceso a los repositorios
estándar y también al repositorio de archive.cloudera.com
21. Tipos de Instalación de Cloudera
Manager
• Despliegues para entornos de producción
– Requiere que primero se instalen y configuren la
base de datos de producción para Cloudera
Manager Server y Hive Metastore. Existen dos
opciones de instalación:
• Instalación Manual utilizando los Paquetes de
Cloudera Manager
– Los administradores instalan Oracle JDK, y los paquetes de
Cloudera Manager Server y de la base de datos embebida
PostgreSQL en el host Cloudera Manager Server.
• Instalación manual utilizando los Tarballs de
Cloudera Manager
– Los adminsitradores instalan Oracle JDK, Cloudera Manager
Server, y Cloudera Manager Agent software como tarballs y
utilizan Cloudera Manager para automatizar la instalación de
22. Tipos de Instalación de Cloudera
Manager
Hoy realizaremos un despliegue de
demostración y prueba de concepto
29. Configuraciones iniciales
• Configurar NTP (Network Time Protocol)
user@ubuntu$ sudo apt-get install ntp
user@ubuntu$ sudo nano /etc/ntp.conf
(comentar los servidores que vienen por defecto, y
añadir al final:)
#cluster configuration
restrict <red_del_cluster> mask <mascara_del_cluster>
nomodify notrap
server 193.146.78.15 iburst
server <ip_del_master> iburst
30. Configuraciones iniciales
• Añadir user a “sudoers”, usuario con
capacidad de ejecutar comandos de
administrador, sin necesidad de
contraseña:
user@cdhmaster:~$ sudo visudo
Añadir al final:
user ALL=(ALL:ALL) NOPASSWD: ALL
33. Instalación de Cloudera Manager
Server
• En el Master
user@cdhmaster$ wget
http://archive.cloudera.com/cm5/installer/latest/clou
dera-manager-installer.bin
user@cdhmaster$ chmod u+x cloudera-manager-
installer.bin
user@cdhmaster$ sudo ./cloudera-manager-installer.bin
34. Instalación de Cloudera Manager
Server
• Antes de proceder, reducir el parámetro de
memoria RAM consumida por Cloudera
Manager (debido a los escasos recursos del
Curso):
user@cdhmaster$ sudo nano /etc/default/cloudera-scm-
server
export CMF_JAVA_OPTS="-Xmx1g -XX:MaxPermSize=256m -
XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp"
35. Instalación de Cloudera Manager
Server
http://ip_master:7180/cmf/login
User: admin
Password: admin
38. Cloudera Manager
• “single user”. Este modo hace que el
sistema no necesite crear usuarios para los
distintos componentes de los que se
compone Cloudera, ya que los gestiona
desde un mismo usuario. En nuestro caso,
no seleccionaremos está opción (implica
cierto trabajo manual).
42. Cloudera Manager
• Una vez finalizada la instalación, “tuneamos” el
Master para evitar problemas de memoria:
user@cdhmaster:/etc$ sudo sysctl vm.swappiness=0
y/o
user@cdhmaster:/etc$ sudo nano /etc/sysctl.conf
al final añadir:
vm.swappiness=0
44. Roles de los Servicios
Gestionados
• Una vez instalado y desplegado, deberemos
asignar los roles a los nodos.
• El ayudante de instalación evalúa las
configuraciones del hardware (número de
núcleos, RAM, espacio,…) para determinar
los mejores nodos para cada rol.
• Por lo general, la propuesta realizada no se
modificará a no ser que se vea estrictamente
necesario, o se quiera separar los roles en
diferentes nodos por alguna razón concreta.
51. Cloudera Manager
• Diagnóstico, de los procesos y servicios en
ejecución
• Auditorías: podemos realizar búsquedas y
generar filtros para recuperar registros de
auditoría o logs.
• Charts: sirve para poder crear nuestro propio
panel de mandos de donde monitorizar los
recursos del Cluster
• Administración: permite visualizar y “tocar”
algunos parámetros relacionados con la
eficiencia, seguridad, monitorización,