SlideShare una empresa de Scribd logo
1 de 27
Descargar para leer sin conexión
EL CICLO DE PROYECTO EN BIG DATA
raineropenschool.com
Rainer Open School – Big Data
INTRODUCCIÓN
El mundo “Big Data” mantiene una afluencia
continua de datos y cambios en la realidad que
analiza, lo que impone un ciclo continuo de
hipótesis, desarrollo, validación y aplicación.
raineropenschool.com
Descubrir
Preparación de
datos
Planificación
del modelo
Construcción
del modelo
Comunicación
de resultados
Aplicación
práctica
ROLES DE PROYECTO EN BIG DATA
Los equipos de trabajo en Big Data cuentan
con roles propios, distintos a los que hay en
otros proyectos de software, con relaciones y
responsabilidades que hay que entender.
Reunión de un equipo de proyecto
Fuente: Klean Denmark
raineropenschool.com
PATROCINADOR (PROJECT SPONSOR)
Es el impulsor de la iniciativa, quien define los
objetivos y utilidad comercial del proyecto.
Normalmente también proporciona la
financiación y los recursos para su ejecución.
Fajos de 100 dólares
Fuente: Pictures of money
raineropenschool.com
USUARIO (BUSINESS USER)
El usuario no tiene que ser realmente un
usuario final, sino un representante del
“usuario final típico”; alguien que entiende el
valor práctico y necesidades del proyecto.
Sala de contratación de bolsa
Fuente: Raiffeisenverband Salzburg
raineropenschool.com
GESTOR DE PROYECTO (PROJECT MANAGER)
Es un facilitador y coordinador de recursos,
cuyo objetivo es alcanzar los fines del proyecto.
Es uno de los roles con mejores perspectivas
de crecimiento y desarrollo profesional.
Gestores de proyecto en el USASMDC
Fuente: Deborah Erhart
raineropenschool.com
ANALISTA DE NEGOCIO (BI ANALYST)
Aporta una perspectiva analítica del problema,
desde el conocimiento del ámbito de negocio y
las métricas que pueden definir tanto los datos
de entrada como los resultados.
Inteligence
Fuente: Geralt
raineropenschool.com
ADMINISTRADOR DE BBDD (DBA)
Gestiona la persistencia y acceso a los datos,
en cualquiera que sea el paradigma utilizado
(relacional o No-SQL). Implementa tanto el
modelo lógico como las reglas de acceso.
Servidores de la fundación Wikimedia
Fuente: Victor Grigas
raineropenschool.com
INGENIERO DE DATOS (DATA ENGINEER)
Apoya al DBA en la correcta gestión de los
datos; mientras uno se ocupa de cómo se
almacenan, el otro se asegura de que tienen
sentido y valor.
Análisis de datos en bruto de un disco duro
Fuente: Paul Dineen
raineropenschool.com
CIENTÍFICO DE DATOS (DATA SCIENTIST)
Aporta la estrategia de resolución al problema.
Alguien “que sabe más de estadística que un
programador y más de programación que un
estadístico”.
Grafo de análisis de redes sociales
Fuente: Martin Grandjean
raineropenschool.com
EL CICLO EN EL PROYECTO DE BIG DATA
Descubrimiento
Preparación de
datos
Planificación del
modelo
Construcción del
modelo
Comunicación
de resultados
Puesta en
producción
Puesto que los
proyectos en Big Data
están sometidos a un
cambio continuo, se
parecen más a un ciclo
ininterrumpido de
hipótesis, pruebas,
análisis, valoración y
vuelta a empezar, que a
un proceso lineal.
raineropenschool.com
FASE 1. DESCUBRIMIENTO
Para empezar, el equipo de trabajo debe
dimensionar y comprender el problema,
plantear una hipótesis inicial y estimar los
recursos necesarios para resolverla.
Reunión de planificación
Fuente: Gilles Turnbull
raineropenschool.com
PUNTOS CLAVE DEL DESCUBRIMIENTO
 El primer paso es identificar a los interesados
clave (stakeholders).
 Después hay que enmarcar (frame) el desafío.
 ¿Cómo lo afrontamos?
 ¿Tenemos los medios y conocimiento necesarios?
 Con estos datos se formula la hipótesis inicial.
 Y llegamos a la pregunta clave: ¿Dónde
podemos conseguir la información?
raineropenschool.com
FASE 2. PREPARACIÓN DE DATOS
Extract Load Transform
A continuación debe obtenerse y refinarse la
información utilizada en el análisis. Esto
incluye cualquier transformación de los datos
en bruto y su traspaso al entorno de trabajo.
raineropenschool.com
PUNTOS CLAVE DE LA PREPARACIÓN
 Esta fase requiere un entorno de pruebas
(Analytic Sandbox) que hay que preparar.
 Este entorno recibirá un volcado de datos
mediante operaciones de extracción (extract),
carga (load) y transformación (transform), o
ELT, con los que hay que tantear el problema.
 En consecuencia, el bloque de datos puede ser
bastante grande y esta fase la más larga.
raineropenschool.com
FASE 3. PLANIFICACIÓN DEL MODELO
En este momento, cuando se ha planteado la
hipótesis, se conoce el problema y se han
obtenido los datos, es cuando se plantea la
estrategia de resolución; el “modelo”.
Algoritmo de ordenación
Fuente: Balu Ertl
raineropenschool.com
PUNTOS CLAVE DE LA PLANIFICACIÓN
 Las fases anteriores nos han dado el problema
y la información para afrontarlo. Aquí se trata
de valorar cómo resolverlo:
 ¿Qué técnicas vamos a usar?
 ¿Basta una o es mejor una sucesión de ellas?
 ¿Qué métricas, valores y relaciones caracterizan los
conjuntos de datos?
 ¿Cómo han resuelto otros problemas parecidos?
raineropenschool.com
FASE 4. CONSTRUCCIÓN DEL MODELO
A partir de los datos refinados, se elaboran
conjuntos de datos (datasets) que sirvan para
aplicar el modelo y plantear una prueba piloto
sobre la viabilidad de la hipótesis inicial.
Variación de temperatura entre 1901/2011
Fuente: Giorgio GP2
raineropenschool.com
PUNTOS CLAVE DE LA CONSTRUCCIÓN
 La palabra “modelo” se usa de forma un poco
vaga, por lo que conviene concretar que:
 Incluye los conjuntos de datos (datasets).
 Así como la estrategia para su análisis.
 Esta combinación es lo que hay que desarrollar
en esta fase:
 Generar los datasets que vamos a utilizar.
 Ponerlos a prueba de forma parcial contra el
algoritmo (estrategia) de resolución del problema.
raineropenschool.com
FASE 5. COMUNICACIÓN DE RESULTADOS
Con los resultados de la prueba piloto, todo el
equipo se reúne y valora si la hipótesis inicial
ha quedado confirmada o refutada y por qué
razones ha ocurrido esto.
Visualización de un evento Higgs en el CERN
Fuente: Lucas Taylor
raineropenschool.com
RESULTADOS CLAVE DEL PROYECTO
 El patrocinador determina si hay valor de negocio en la
solución.
 El usuario averigua si esa solución supone un beneficio.
 El gestor de proyecto genera su informe de ejecución y
lecciones aprendidas.
 En analista de inteligencia de negocio comprueba si
debe cambiar su perspectiva.
 Los ingenieros generan planes de implantación de las
solución técnica planteada, incluido el código y los
parámetros de configuración del sistema.
 El científico de datos ayuda a todos los demás a
comprender la estrategia de resolución adoptada.
raineropenschool.com
FASE 6. PUESTA EN PRODUCCIÓN
Con toda la información obtenida, en este
punto es cuando el equipo proporciona
documentos, datos, código e indicaciones para
pasar a un entorno de producción real.
Cluster SCIRO
Fuente: SCIRO
raineropenschool.com
DESCUBRIMIENTO VS PRODUCCIÓN
Hipótesis Práctica
Vemos, por tanto, que hay dos proyectos: el de
descubrimiento, en el que se averigua cómo
afrontar el problema, y el de producción, en el
que se pone en práctica la solución creada.
raineropenschool.com
CONCLUSIONES
 Los proyectos de Big Data tienen naturaleza
exploratoria, para proporciona soluciones a los
desafíos de negocio.
 Estos proyectos cuentan con roles nuevos y
distintos respecto a otros ámbitos.
 Las conclusiones que generan servirán para poner
en marcha los sistemas de producción.
 El ciclo del proyecto está en continua revisión, con
pasos adelante y atrás para ajustar los hallazgos
realizados.
raineropenschool.com
LECTURAS RECOMENDADAS
Data Science & Big Data
Statistics
EMC Education Services
ISBN: 978-1118876138
http://amzn.to/1QTNWH7
Capítulo 2, por lo que se
refiere a esta
presentación
raineropenschool.com
SOBRE EL AUTOR
Rafael Morales
Consultor y formador en
 Sistemas de información (IT).
 Gestión de proyectos (PM).
 Aseguramiento de la calidad (QA).
En LinkedIn: http://bit.ly/20Qh0oZ
Email: contacto@rafael-morales.com
raineropenschool.com
OTROS CONTENIDOS
Puedes encontrar las notas de
esta conferencia y otras obras
del mismo autor en Amazon:
http://amzn.to/1Rp8yM9
Puedes seguir las novedades
y convocatorias de nuevos
seminarios, cursillos y
presentaciones en
raineropenschool.com
raineropenschool.com

Más contenido relacionado

La actualidad más candente

DESARROLLO DE PROTOTIPOS
DESARROLLO DE PROTOTIPOSDESARROLLO DE PROTOTIPOS
DESARROLLO DE PROTOTIPOSUDEC
 
Tipos sistemas de información
Tipos sistemas de informaciónTipos sistemas de información
Tipos sistemas de informaciónbrugman1985
 
Implementacion de bases de datos en mysql
Implementacion de bases de datos en mysqlImplementacion de bases de datos en mysql
Implementacion de bases de datos en mysqlPipe Muñoz
 
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)DANIEL VENTURA
 
Herramientas para llevar a cabo un Sistema de Información
Herramientas para llevar a cabo un Sistema de InformaciónHerramientas para llevar a cabo un Sistema de Información
Herramientas para llevar a cabo un Sistema de Informaciónjgbd127
 
Documentación de los sistemas de información
Documentación de los sistemas de informaciónDocumentación de los sistemas de información
Documentación de los sistemas de informaciónKarina Hernández
 
El Modelo Relacional de Datos
El Modelo Relacional de DatosEl Modelo Relacional de Datos
El Modelo Relacional de DatosManuel Guerra
 
Unidad ii identificacion de los requerimientos
Unidad ii identificacion de los requerimientosUnidad ii identificacion de los requerimientos
Unidad ii identificacion de los requerimientosJesus Gallegos
 
Comparativa sgbd comercial vs libre
Comparativa sgbd comercial vs libreComparativa sgbd comercial vs libre
Comparativa sgbd comercial vs libreFportavella
 
Diagrama de Flujo de Datos (DFD)
Diagrama de Flujo de Datos (DFD)Diagrama de Flujo de Datos (DFD)
Diagrama de Flujo de Datos (DFD)Yaskelly Yedra
 

La actualidad más candente (20)

Metodología RUP
Metodología RUPMetodología RUP
Metodología RUP
 
DESARROLLO DE PROTOTIPOS
DESARROLLO DE PROTOTIPOSDESARROLLO DE PROTOTIPOS
DESARROLLO DE PROTOTIPOS
 
Tipos sistemas de información
Tipos sistemas de informaciónTipos sistemas de información
Tipos sistemas de información
 
Implementacion de bases de datos en mysql
Implementacion de bases de datos en mysqlImplementacion de bases de datos en mysql
Implementacion de bases de datos en mysql
 
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
 
Investigacion preliminar
Investigacion preliminarInvestigacion preliminar
Investigacion preliminar
 
Herramientas para llevar a cabo un Sistema de Información
Herramientas para llevar a cabo un Sistema de InformaciónHerramientas para llevar a cabo un Sistema de Información
Herramientas para llevar a cabo un Sistema de Información
 
Rapidminer
RapidminerRapidminer
Rapidminer
 
Call y web center
Call y web centerCall y web center
Call y web center
 
Documentación de los sistemas de información
Documentación de los sistemas de informaciónDocumentación de los sistemas de información
Documentación de los sistemas de información
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
El Modelo Relacional de Datos
El Modelo Relacional de DatosEl Modelo Relacional de Datos
El Modelo Relacional de Datos
 
Sistemas expertos y sus aplicaciones
Sistemas expertos y sus aplicacionesSistemas expertos y sus aplicaciones
Sistemas expertos y sus aplicaciones
 
Unidad ii identificacion de los requerimientos
Unidad ii identificacion de los requerimientosUnidad ii identificacion de los requerimientos
Unidad ii identificacion de los requerimientos
 
Comparativa sgbd comercial vs libre
Comparativa sgbd comercial vs libreComparativa sgbd comercial vs libre
Comparativa sgbd comercial vs libre
 
Metodologia SSADM
Metodologia SSADM Metodologia SSADM
Metodologia SSADM
 
Itil telefonica
Itil telefonicaItil telefonica
Itil telefonica
 
Diagrama de Flujo de Datos (DFD)
Diagrama de Flujo de Datos (DFD)Diagrama de Flujo de Datos (DFD)
Diagrama de Flujo de Datos (DFD)
 
Análisis de riesgos
Análisis de riesgosAnálisis de riesgos
Análisis de riesgos
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 

Destacado

Técnicas de análisis: Clustering
Técnicas de análisis: ClusteringTécnicas de análisis: Clustering
Técnicas de análisis: ClusteringRafael Morales
 
Introducción a la tecnología cluster
Introducción a la tecnología clusterIntroducción a la tecnología cluster
Introducción a la tecnología clusterRafael Morales
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big DataRafael Morales
 
Técnicas de análisis: Reglas de asociación
Técnicas de análisis: Reglas de asociaciónTécnicas de análisis: Reglas de asociación
Técnicas de análisis: Reglas de asociaciónRafael Morales
 
Implantación del Sprint zero
Implantación del Sprint zeroImplantación del Sprint zero
Implantación del Sprint zeroRafael Morales
 
Cómo descargar presentaciones desde SlideShare
Cómo descargar presentaciones desde SlideShareCómo descargar presentaciones desde SlideShare
Cómo descargar presentaciones desde SlideSharePedro Bermudez Talavera
 
2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShareSlideShare
 
What to Upload to SlideShare
What to Upload to SlideShareWhat to Upload to SlideShare
What to Upload to SlideShareSlideShare
 
Getting Started With SlideShare
Getting Started With SlideShareGetting Started With SlideShare
Getting Started With SlideShareSlideShare
 

Destacado (10)

Técnicas de análisis: Clustering
Técnicas de análisis: ClusteringTécnicas de análisis: Clustering
Técnicas de análisis: Clustering
 
Introducción a la tecnología cluster
Introducción a la tecnología clusterIntroducción a la tecnología cluster
Introducción a la tecnología cluster
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
 
Técnicas de análisis: Reglas de asociación
Técnicas de análisis: Reglas de asociaciónTécnicas de análisis: Reglas de asociación
Técnicas de análisis: Reglas de asociación
 
Personal Kanban
Personal KanbanPersonal Kanban
Personal Kanban
 
Implantación del Sprint zero
Implantación del Sprint zeroImplantación del Sprint zero
Implantación del Sprint zero
 
Cómo descargar presentaciones desde SlideShare
Cómo descargar presentaciones desde SlideShareCómo descargar presentaciones desde SlideShare
Cómo descargar presentaciones desde SlideShare
 
2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare
 
What to Upload to SlideShare
What to Upload to SlideShareWhat to Upload to SlideShare
What to Upload to SlideShare
 
Getting Started With SlideShare
Getting Started With SlideShareGetting Started With SlideShare
Getting Started With SlideShare
 

Similar a El ciclo de proyecto en Big Data

Seminario Almacenamiento Datos Hoy - 13/12/10
Seminario Almacenamiento Datos Hoy - 13/12/10Seminario Almacenamiento Datos Hoy - 13/12/10
Seminario Almacenamiento Datos Hoy - 13/12/10CAESCG.org
 
Desarrollo de sistemas de información
Desarrollo de sistemas de informaciónDesarrollo de sistemas de información
Desarrollo de sistemas de informaciónCarlos M. Sandoval
 
Desayuno Data science - Aplicaciones en métricas & Analytics
Desayuno Data science - Aplicaciones en métricas & AnalyticsDesayuno Data science - Aplicaciones en métricas & Analytics
Desayuno Data science - Aplicaciones en métricas & Analyticsamdia
 
Simulación de sistemas
Simulación de sistemasSimulación de sistemas
Simulación de sistemasssuserbc31d2
 
Tema 1. introducción a la inv. operaciones y modelación
Tema 1. introducción a la inv. operaciones  y modelaciónTema 1. introducción a la inv. operaciones  y modelación
Tema 1. introducción a la inv. operaciones y modelaciónSistemadeEstudiosMed
 
ET1_Aaron Lara Valdes.pdf
ET1_Aaron Lara Valdes.pdfET1_Aaron Lara Valdes.pdf
ET1_Aaron Lara Valdes.pdfaaron947737
 
SESION 1_SIM_wk.pdf
SESION 1_SIM_wk.pdfSESION 1_SIM_wk.pdf
SESION 1_SIM_wk.pdfJackAlarico1
 
Em bi un repaso por la metodología de implementación
Em bi un repaso por la metodología de implementaciónEm bi un repaso por la metodología de implementación
Em bi un repaso por la metodología de implementaciónEdison_Medina
 
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdfeBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdfNubiral
 
FUNDAMENTOS Y MÉTODOS DE ANÁLISIS DE REQUERIMIENTOS
FUNDAMENTOS Y MÉTODOS DE ANÁLISIS DE REQUERIMIENTOSFUNDAMENTOS Y MÉTODOS DE ANÁLISIS DE REQUERIMIENTOS
FUNDAMENTOS Y MÉTODOS DE ANÁLISIS DE REQUERIMIENTOSCristian Lopez
 
Metodologias para la planeación de sistemas de información
Metodologias para la planeación de sistemas de informaciónMetodologias para la planeación de sistemas de información
Metodologias para la planeación de sistemas de informaciónfavo100
 
Presentacion final analitica de datos
Presentacion final analitica de datosPresentacion final analitica de datos
Presentacion final analitica de datosJesus Calderon
 
presentacion io (1)-1.pptx
presentacion io (1)-1.pptxpresentacion io (1)-1.pptx
presentacion io (1)-1.pptxRoFerz1
 
Domingo García 4A
Domingo García 4ADomingo García 4A
Domingo García 4ADomingoG10
 
Construcción, administración de sistemas y ciclo de vida
Construcción, administración de sistemas y ciclo de vidaConstrucción, administración de sistemas y ciclo de vida
Construcción, administración de sistemas y ciclo de vidaEduardo Viva Cepeda
 

Similar a El ciclo de proyecto en Big Data (20)

Seminario Almacenamiento Datos Hoy - 13/12/10
Seminario Almacenamiento Datos Hoy - 13/12/10Seminario Almacenamiento Datos Hoy - 13/12/10
Seminario Almacenamiento Datos Hoy - 13/12/10
 
Desarrollo de sistemas de información
Desarrollo de sistemas de informaciónDesarrollo de sistemas de información
Desarrollo de sistemas de información
 
Desayuno Data science - Aplicaciones en métricas & Analytics
Desayuno Data science - Aplicaciones en métricas & AnalyticsDesayuno Data science - Aplicaciones en métricas & Analytics
Desayuno Data science - Aplicaciones en métricas & Analytics
 
aplicacion_de_la_investigacion_de_operaciones
aplicacion_de_la_investigacion_de_operacionesaplicacion_de_la_investigacion_de_operaciones
aplicacion_de_la_investigacion_de_operaciones
 
Session01.pptx
Session01.pptxSession01.pptx
Session01.pptx
 
Simulación de sistemas
Simulación de sistemasSimulación de sistemas
Simulación de sistemas
 
Tema 1. introducción a la inv. operaciones y modelación
Tema 1. introducción a la inv. operaciones  y modelaciónTema 1. introducción a la inv. operaciones  y modelación
Tema 1. introducción a la inv. operaciones y modelación
 
ET1_Aaron Lara Valdes.pdf
ET1_Aaron Lara Valdes.pdfET1_Aaron Lara Valdes.pdf
ET1_Aaron Lara Valdes.pdf
 
SESION 1_SIM_wk.pdf
SESION 1_SIM_wk.pdfSESION 1_SIM_wk.pdf
SESION 1_SIM_wk.pdf
 
Em bi un repaso por la metodología de implementación
Em bi un repaso por la metodología de implementaciónEm bi un repaso por la metodología de implementación
Em bi un repaso por la metodología de implementación
 
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdfeBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
 
Mirla montano
Mirla montanoMirla montano
Mirla montano
 
FUNDAMENTOS Y MÉTODOS DE ANÁLISIS DE REQUERIMIENTOS
FUNDAMENTOS Y MÉTODOS DE ANÁLISIS DE REQUERIMIENTOSFUNDAMENTOS Y MÉTODOS DE ANÁLISIS DE REQUERIMIENTOS
FUNDAMENTOS Y MÉTODOS DE ANÁLISIS DE REQUERIMIENTOS
 
Metodologias para la planeación de sistemas de información
Metodologias para la planeación de sistemas de informaciónMetodologias para la planeación de sistemas de información
Metodologias para la planeación de sistemas de información
 
Presentacion final analitica de datos
Presentacion final analitica de datosPresentacion final analitica de datos
Presentacion final analitica de datos
 
presentacion io (1)-1.pptx
presentacion io (1)-1.pptxpresentacion io (1)-1.pptx
presentacion io (1)-1.pptx
 
2.3keidy
2.3keidy2.3keidy
2.3keidy
 
Domingo García 4A
Domingo García 4ADomingo García 4A
Domingo García 4A
 
Construcción, administración de sistemas y ciclo de vida
Construcción, administración de sistemas y ciclo de vidaConstrucción, administración de sistemas y ciclo de vida
Construcción, administración de sistemas y ciclo de vida
 
Presentacion
PresentacionPresentacion
Presentacion
 

Último

CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfCALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfPOULANDERSONDELGADOA2
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfJC Díaz Herrera
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyraestudiantes2010
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirluis809799
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfJC Díaz Herrera
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfalexanderleonyonange
 
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdf
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdfINFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdf
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdfMiguelGomez900779
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptMelina Alama Visitacion
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosEstefaniaRojas54
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfJC Díaz Herrera
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024AndrsReinosoSnchez1
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdfJC Díaz Herrera
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfJC Díaz Herrera
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxJamesHerberthBacaTel
 
Gestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalGestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalMarcosAlvarezSalinas
 
Presentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfPresentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfDodiAcuaArstica
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfJC Díaz Herrera
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfJC Díaz Herrera
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 

Último (20)

CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfCALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdf
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdf
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdf
 
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdf
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdfINFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdf
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdf
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.ppt
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos años
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdf
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdf
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
 
Gestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalGestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajal
 
Presentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfPresentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdf
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdf
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdf
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 

El ciclo de proyecto en Big Data

  • 1. EL CICLO DE PROYECTO EN BIG DATA raineropenschool.com Rainer Open School – Big Data
  • 2. INTRODUCCIÓN El mundo “Big Data” mantiene una afluencia continua de datos y cambios en la realidad que analiza, lo que impone un ciclo continuo de hipótesis, desarrollo, validación y aplicación. raineropenschool.com Descubrir Preparación de datos Planificación del modelo Construcción del modelo Comunicación de resultados Aplicación práctica
  • 3. ROLES DE PROYECTO EN BIG DATA Los equipos de trabajo en Big Data cuentan con roles propios, distintos a los que hay en otros proyectos de software, con relaciones y responsabilidades que hay que entender. Reunión de un equipo de proyecto Fuente: Klean Denmark raineropenschool.com
  • 4. PATROCINADOR (PROJECT SPONSOR) Es el impulsor de la iniciativa, quien define los objetivos y utilidad comercial del proyecto. Normalmente también proporciona la financiación y los recursos para su ejecución. Fajos de 100 dólares Fuente: Pictures of money raineropenschool.com
  • 5. USUARIO (BUSINESS USER) El usuario no tiene que ser realmente un usuario final, sino un representante del “usuario final típico”; alguien que entiende el valor práctico y necesidades del proyecto. Sala de contratación de bolsa Fuente: Raiffeisenverband Salzburg raineropenschool.com
  • 6. GESTOR DE PROYECTO (PROJECT MANAGER) Es un facilitador y coordinador de recursos, cuyo objetivo es alcanzar los fines del proyecto. Es uno de los roles con mejores perspectivas de crecimiento y desarrollo profesional. Gestores de proyecto en el USASMDC Fuente: Deborah Erhart raineropenschool.com
  • 7. ANALISTA DE NEGOCIO (BI ANALYST) Aporta una perspectiva analítica del problema, desde el conocimiento del ámbito de negocio y las métricas que pueden definir tanto los datos de entrada como los resultados. Inteligence Fuente: Geralt raineropenschool.com
  • 8. ADMINISTRADOR DE BBDD (DBA) Gestiona la persistencia y acceso a los datos, en cualquiera que sea el paradigma utilizado (relacional o No-SQL). Implementa tanto el modelo lógico como las reglas de acceso. Servidores de la fundación Wikimedia Fuente: Victor Grigas raineropenschool.com
  • 9. INGENIERO DE DATOS (DATA ENGINEER) Apoya al DBA en la correcta gestión de los datos; mientras uno se ocupa de cómo se almacenan, el otro se asegura de que tienen sentido y valor. Análisis de datos en bruto de un disco duro Fuente: Paul Dineen raineropenschool.com
  • 10. CIENTÍFICO DE DATOS (DATA SCIENTIST) Aporta la estrategia de resolución al problema. Alguien “que sabe más de estadística que un programador y más de programación que un estadístico”. Grafo de análisis de redes sociales Fuente: Martin Grandjean raineropenschool.com
  • 11. EL CICLO EN EL PROYECTO DE BIG DATA Descubrimiento Preparación de datos Planificación del modelo Construcción del modelo Comunicación de resultados Puesta en producción Puesto que los proyectos en Big Data están sometidos a un cambio continuo, se parecen más a un ciclo ininterrumpido de hipótesis, pruebas, análisis, valoración y vuelta a empezar, que a un proceso lineal. raineropenschool.com
  • 12. FASE 1. DESCUBRIMIENTO Para empezar, el equipo de trabajo debe dimensionar y comprender el problema, plantear una hipótesis inicial y estimar los recursos necesarios para resolverla. Reunión de planificación Fuente: Gilles Turnbull raineropenschool.com
  • 13. PUNTOS CLAVE DEL DESCUBRIMIENTO  El primer paso es identificar a los interesados clave (stakeholders).  Después hay que enmarcar (frame) el desafío.  ¿Cómo lo afrontamos?  ¿Tenemos los medios y conocimiento necesarios?  Con estos datos se formula la hipótesis inicial.  Y llegamos a la pregunta clave: ¿Dónde podemos conseguir la información? raineropenschool.com
  • 14. FASE 2. PREPARACIÓN DE DATOS Extract Load Transform A continuación debe obtenerse y refinarse la información utilizada en el análisis. Esto incluye cualquier transformación de los datos en bruto y su traspaso al entorno de trabajo. raineropenschool.com
  • 15. PUNTOS CLAVE DE LA PREPARACIÓN  Esta fase requiere un entorno de pruebas (Analytic Sandbox) que hay que preparar.  Este entorno recibirá un volcado de datos mediante operaciones de extracción (extract), carga (load) y transformación (transform), o ELT, con los que hay que tantear el problema.  En consecuencia, el bloque de datos puede ser bastante grande y esta fase la más larga. raineropenschool.com
  • 16. FASE 3. PLANIFICACIÓN DEL MODELO En este momento, cuando se ha planteado la hipótesis, se conoce el problema y se han obtenido los datos, es cuando se plantea la estrategia de resolución; el “modelo”. Algoritmo de ordenación Fuente: Balu Ertl raineropenschool.com
  • 17. PUNTOS CLAVE DE LA PLANIFICACIÓN  Las fases anteriores nos han dado el problema y la información para afrontarlo. Aquí se trata de valorar cómo resolverlo:  ¿Qué técnicas vamos a usar?  ¿Basta una o es mejor una sucesión de ellas?  ¿Qué métricas, valores y relaciones caracterizan los conjuntos de datos?  ¿Cómo han resuelto otros problemas parecidos? raineropenschool.com
  • 18. FASE 4. CONSTRUCCIÓN DEL MODELO A partir de los datos refinados, se elaboran conjuntos de datos (datasets) que sirvan para aplicar el modelo y plantear una prueba piloto sobre la viabilidad de la hipótesis inicial. Variación de temperatura entre 1901/2011 Fuente: Giorgio GP2 raineropenschool.com
  • 19. PUNTOS CLAVE DE LA CONSTRUCCIÓN  La palabra “modelo” se usa de forma un poco vaga, por lo que conviene concretar que:  Incluye los conjuntos de datos (datasets).  Así como la estrategia para su análisis.  Esta combinación es lo que hay que desarrollar en esta fase:  Generar los datasets que vamos a utilizar.  Ponerlos a prueba de forma parcial contra el algoritmo (estrategia) de resolución del problema. raineropenschool.com
  • 20. FASE 5. COMUNICACIÓN DE RESULTADOS Con los resultados de la prueba piloto, todo el equipo se reúne y valora si la hipótesis inicial ha quedado confirmada o refutada y por qué razones ha ocurrido esto. Visualización de un evento Higgs en el CERN Fuente: Lucas Taylor raineropenschool.com
  • 21. RESULTADOS CLAVE DEL PROYECTO  El patrocinador determina si hay valor de negocio en la solución.  El usuario averigua si esa solución supone un beneficio.  El gestor de proyecto genera su informe de ejecución y lecciones aprendidas.  En analista de inteligencia de negocio comprueba si debe cambiar su perspectiva.  Los ingenieros generan planes de implantación de las solución técnica planteada, incluido el código y los parámetros de configuración del sistema.  El científico de datos ayuda a todos los demás a comprender la estrategia de resolución adoptada. raineropenschool.com
  • 22. FASE 6. PUESTA EN PRODUCCIÓN Con toda la información obtenida, en este punto es cuando el equipo proporciona documentos, datos, código e indicaciones para pasar a un entorno de producción real. Cluster SCIRO Fuente: SCIRO raineropenschool.com
  • 23. DESCUBRIMIENTO VS PRODUCCIÓN Hipótesis Práctica Vemos, por tanto, que hay dos proyectos: el de descubrimiento, en el que se averigua cómo afrontar el problema, y el de producción, en el que se pone en práctica la solución creada. raineropenschool.com
  • 24. CONCLUSIONES  Los proyectos de Big Data tienen naturaleza exploratoria, para proporciona soluciones a los desafíos de negocio.  Estos proyectos cuentan con roles nuevos y distintos respecto a otros ámbitos.  Las conclusiones que generan servirán para poner en marcha los sistemas de producción.  El ciclo del proyecto está en continua revisión, con pasos adelante y atrás para ajustar los hallazgos realizados. raineropenschool.com
  • 25. LECTURAS RECOMENDADAS Data Science & Big Data Statistics EMC Education Services ISBN: 978-1118876138 http://amzn.to/1QTNWH7 Capítulo 2, por lo que se refiere a esta presentación raineropenschool.com
  • 26. SOBRE EL AUTOR Rafael Morales Consultor y formador en  Sistemas de información (IT).  Gestión de proyectos (PM).  Aseguramiento de la calidad (QA). En LinkedIn: http://bit.ly/20Qh0oZ Email: contacto@rafael-morales.com raineropenschool.com
  • 27. OTROS CONTENIDOS Puedes encontrar las notas de esta conferencia y otras obras del mismo autor en Amazon: http://amzn.to/1Rp8yM9 Puedes seguir las novedades y convocatorias de nuevos seminarios, cursillos y presentaciones en raineropenschool.com raineropenschool.com