Los proyectos de Big Data son distintos a otros proyectos de software en muchos aspectos. Para empezar tienen una naturaleza más exploratoria y cuentan con roles únicos que no existen en otros ámbitos.
Este tipo de proyectos están divididos en dos grandes fases: una de investigación, en la que se plantea una hipótesis de trabajo y se desarrollan los conjuntos de datos (datasets) herramientas y técnicas para validarla, y una segunda de explotación, en donde las conclusiones de la fase anterior se lleva a producción.
En esta presentación, correspondiente a la conferencia impartida en Abril de 2016, aprenderás cuáles son esos roles, qué resultados producen y cuáles son las fases y puntos clave de este tipo de proyectos.
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
El ciclo de proyecto en Big Data
1. EL CICLO DE PROYECTO EN BIG DATA
raineropenschool.com
Rainer Open School – Big Data
2. INTRODUCCIÓN
El mundo “Big Data” mantiene una afluencia
continua de datos y cambios en la realidad que
analiza, lo que impone un ciclo continuo de
hipótesis, desarrollo, validación y aplicación.
raineropenschool.com
Descubrir
Preparación de
datos
Planificación
del modelo
Construcción
del modelo
Comunicación
de resultados
Aplicación
práctica
3. ROLES DE PROYECTO EN BIG DATA
Los equipos de trabajo en Big Data cuentan
con roles propios, distintos a los que hay en
otros proyectos de software, con relaciones y
responsabilidades que hay que entender.
Reunión de un equipo de proyecto
Fuente: Klean Denmark
raineropenschool.com
4. PATROCINADOR (PROJECT SPONSOR)
Es el impulsor de la iniciativa, quien define los
objetivos y utilidad comercial del proyecto.
Normalmente también proporciona la
financiación y los recursos para su ejecución.
Fajos de 100 dólares
Fuente: Pictures of money
raineropenschool.com
5. USUARIO (BUSINESS USER)
El usuario no tiene que ser realmente un
usuario final, sino un representante del
“usuario final típico”; alguien que entiende el
valor práctico y necesidades del proyecto.
Sala de contratación de bolsa
Fuente: Raiffeisenverband Salzburg
raineropenschool.com
6. GESTOR DE PROYECTO (PROJECT MANAGER)
Es un facilitador y coordinador de recursos,
cuyo objetivo es alcanzar los fines del proyecto.
Es uno de los roles con mejores perspectivas
de crecimiento y desarrollo profesional.
Gestores de proyecto en el USASMDC
Fuente: Deborah Erhart
raineropenschool.com
7. ANALISTA DE NEGOCIO (BI ANALYST)
Aporta una perspectiva analítica del problema,
desde el conocimiento del ámbito de negocio y
las métricas que pueden definir tanto los datos
de entrada como los resultados.
Inteligence
Fuente: Geralt
raineropenschool.com
8. ADMINISTRADOR DE BBDD (DBA)
Gestiona la persistencia y acceso a los datos,
en cualquiera que sea el paradigma utilizado
(relacional o No-SQL). Implementa tanto el
modelo lógico como las reglas de acceso.
Servidores de la fundación Wikimedia
Fuente: Victor Grigas
raineropenschool.com
9. INGENIERO DE DATOS (DATA ENGINEER)
Apoya al DBA en la correcta gestión de los
datos; mientras uno se ocupa de cómo se
almacenan, el otro se asegura de que tienen
sentido y valor.
Análisis de datos en bruto de un disco duro
Fuente: Paul Dineen
raineropenschool.com
10. CIENTÍFICO DE DATOS (DATA SCIENTIST)
Aporta la estrategia de resolución al problema.
Alguien “que sabe más de estadística que un
programador y más de programación que un
estadístico”.
Grafo de análisis de redes sociales
Fuente: Martin Grandjean
raineropenschool.com
11. EL CICLO EN EL PROYECTO DE BIG DATA
Descubrimiento
Preparación de
datos
Planificación del
modelo
Construcción del
modelo
Comunicación
de resultados
Puesta en
producción
Puesto que los
proyectos en Big Data
están sometidos a un
cambio continuo, se
parecen más a un ciclo
ininterrumpido de
hipótesis, pruebas,
análisis, valoración y
vuelta a empezar, que a
un proceso lineal.
raineropenschool.com
12. FASE 1. DESCUBRIMIENTO
Para empezar, el equipo de trabajo debe
dimensionar y comprender el problema,
plantear una hipótesis inicial y estimar los
recursos necesarios para resolverla.
Reunión de planificación
Fuente: Gilles Turnbull
raineropenschool.com
13. PUNTOS CLAVE DEL DESCUBRIMIENTO
El primer paso es identificar a los interesados
clave (stakeholders).
Después hay que enmarcar (frame) el desafío.
¿Cómo lo afrontamos?
¿Tenemos los medios y conocimiento necesarios?
Con estos datos se formula la hipótesis inicial.
Y llegamos a la pregunta clave: ¿Dónde
podemos conseguir la información?
raineropenschool.com
14. FASE 2. PREPARACIÓN DE DATOS
Extract Load Transform
A continuación debe obtenerse y refinarse la
información utilizada en el análisis. Esto
incluye cualquier transformación de los datos
en bruto y su traspaso al entorno de trabajo.
raineropenschool.com
15. PUNTOS CLAVE DE LA PREPARACIÓN
Esta fase requiere un entorno de pruebas
(Analytic Sandbox) que hay que preparar.
Este entorno recibirá un volcado de datos
mediante operaciones de extracción (extract),
carga (load) y transformación (transform), o
ELT, con los que hay que tantear el problema.
En consecuencia, el bloque de datos puede ser
bastante grande y esta fase la más larga.
raineropenschool.com
16. FASE 3. PLANIFICACIÓN DEL MODELO
En este momento, cuando se ha planteado la
hipótesis, se conoce el problema y se han
obtenido los datos, es cuando se plantea la
estrategia de resolución; el “modelo”.
Algoritmo de ordenación
Fuente: Balu Ertl
raineropenschool.com
17. PUNTOS CLAVE DE LA PLANIFICACIÓN
Las fases anteriores nos han dado el problema
y la información para afrontarlo. Aquí se trata
de valorar cómo resolverlo:
¿Qué técnicas vamos a usar?
¿Basta una o es mejor una sucesión de ellas?
¿Qué métricas, valores y relaciones caracterizan los
conjuntos de datos?
¿Cómo han resuelto otros problemas parecidos?
raineropenschool.com
18. FASE 4. CONSTRUCCIÓN DEL MODELO
A partir de los datos refinados, se elaboran
conjuntos de datos (datasets) que sirvan para
aplicar el modelo y plantear una prueba piloto
sobre la viabilidad de la hipótesis inicial.
Variación de temperatura entre 1901/2011
Fuente: Giorgio GP2
raineropenschool.com
19. PUNTOS CLAVE DE LA CONSTRUCCIÓN
La palabra “modelo” se usa de forma un poco
vaga, por lo que conviene concretar que:
Incluye los conjuntos de datos (datasets).
Así como la estrategia para su análisis.
Esta combinación es lo que hay que desarrollar
en esta fase:
Generar los datasets que vamos a utilizar.
Ponerlos a prueba de forma parcial contra el
algoritmo (estrategia) de resolución del problema.
raineropenschool.com
20. FASE 5. COMUNICACIÓN DE RESULTADOS
Con los resultados de la prueba piloto, todo el
equipo se reúne y valora si la hipótesis inicial
ha quedado confirmada o refutada y por qué
razones ha ocurrido esto.
Visualización de un evento Higgs en el CERN
Fuente: Lucas Taylor
raineropenschool.com
21. RESULTADOS CLAVE DEL PROYECTO
El patrocinador determina si hay valor de negocio en la
solución.
El usuario averigua si esa solución supone un beneficio.
El gestor de proyecto genera su informe de ejecución y
lecciones aprendidas.
En analista de inteligencia de negocio comprueba si
debe cambiar su perspectiva.
Los ingenieros generan planes de implantación de las
solución técnica planteada, incluido el código y los
parámetros de configuración del sistema.
El científico de datos ayuda a todos los demás a
comprender la estrategia de resolución adoptada.
raineropenschool.com
22. FASE 6. PUESTA EN PRODUCCIÓN
Con toda la información obtenida, en este
punto es cuando el equipo proporciona
documentos, datos, código e indicaciones para
pasar a un entorno de producción real.
Cluster SCIRO
Fuente: SCIRO
raineropenschool.com
23. DESCUBRIMIENTO VS PRODUCCIÓN
Hipótesis Práctica
Vemos, por tanto, que hay dos proyectos: el de
descubrimiento, en el que se averigua cómo
afrontar el problema, y el de producción, en el
que se pone en práctica la solución creada.
raineropenschool.com
24. CONCLUSIONES
Los proyectos de Big Data tienen naturaleza
exploratoria, para proporciona soluciones a los
desafíos de negocio.
Estos proyectos cuentan con roles nuevos y
distintos respecto a otros ámbitos.
Las conclusiones que generan servirán para poner
en marcha los sistemas de producción.
El ciclo del proyecto está en continua revisión, con
pasos adelante y atrás para ajustar los hallazgos
realizados.
raineropenschool.com
25. LECTURAS RECOMENDADAS
Data Science & Big Data
Statistics
EMC Education Services
ISBN: 978-1118876138
http://amzn.to/1QTNWH7
Capítulo 2, por lo que se
refiere a esta
presentación
raineropenschool.com
26. SOBRE EL AUTOR
Rafael Morales
Consultor y formador en
Sistemas de información (IT).
Gestión de proyectos (PM).
Aseguramiento de la calidad (QA).
En LinkedIn: http://bit.ly/20Qh0oZ
Email: contacto@rafael-morales.com
raineropenschool.com
27. OTROS CONTENIDOS
Puedes encontrar las notas de
esta conferencia y otras obras
del mismo autor en Amazon:
http://amzn.to/1Rp8yM9
Puedes seguir las novedades
y convocatorias de nuevos
seminarios, cursillos y
presentaciones en
raineropenschool.com
raineropenschool.com