SlideShare una empresa de Scribd logo
1 de 15
INTRODUCCIÓN A LA
CIENCIA DE DATOS Y
EL BIG DATA
BIG DATA
• Es un proyecto que está compuesto de procesos, etapas y un grupo de
personas responsables.
• la Ciencia de Datos es una disciplina de manipulación de grandes
volúmenes de datos y el análisis
• toma sus bases en la forma de administrar y ejecutar un proyecto
tecnológico, el cual es el proceso que se sigue para construir, entregar y
hacer evolucionar el software.
• Se definen las distintas fases intermedias que se requieren para validar el
desarrollo de un software
• Ciencia de Datos se identifica dentro de un contexto multidisciplinar
TECNICAS
Entre las que destacan esta el :
• Data Mining
• Machine Learning
• Deep Learning
Ya que posibilitan enriquecer y crear conocimiento de negocio, Porque:
• Optimiza la toma de decisiones
• Extrae nueva información oculta entre los datos generados por la
empresa
• En diferentes estudios realizados, se confirma que más del 70% d
un proyecto de Ciencia de Datos se centra el tratamiento de los
datos para obtener el conocimiento necesario para la toma de
decisiones y su aportación al negocio.
• Estos productos pueden ser: ser un cuadro de mandos, un
recomendador, clasificador o cualquier respuesta que facilite la
toma de decisiones y actuaciones.
• es necesario mantener los procesos de disposición de los datos,
clasificación, selección, limpieza y reducción de los mismos.
• Los desarrollos y proyectos de Ciencia de Datos deben construirse
alrededor de un equipo multidisciplinar
Uno de ellos es la metodología CRISP-DM
• Creado en 1999 por SPSS, NCR y DaimlerChrysler
• Mantiene un proceso estándar en seis fases que fue concebido para el desarrollo
de proyectos de Data Mining
• Busca la recolección y análisis de grandes volúmenes de datos.
Otro estándar utilizado para proyectos de Data Mining es SEMMA
• Se basan en el estándar CRIPS–DM y creada por SAS Institute en 1998.
Por lo general y dado que los proyectos de Data Mining son sensibles y deficitarios
de las fuentes generadoras de datos
El modelo Catalyst creado en 2003, es un modelo que se exterioriza de los
proyectos de CRM hacia los proyectos de Ciencia de Datos
DIFERENCIAS
Las diferencias más importantes entre estos tipos de metodologías es que:
• CRIPS-DM, KDD o Catalyst se centran en las necesidades y comprensión del negocio
• la metodología SEMA está más orientada al empleo de estadísticos para el muestreo de los
datos.
• Los resultados en CRIPS-DM se realiza en base al desempeño del modelo elegido y los objetivos
marcados.
• SEMA sólo hace referencia al desempeño del modelo.
• En el caso de Catalyst la evaluación de los resultados se realiza únicamente en relación a los
objetivos y requerimientos de la estrategia de negocio.
• SEMA está orientada a las herramientas de SAS y por tanto los algoritmos y modelos que SAS
proporciona
• Las demás metodologías el analista de Ciencia de Datos puede emplear las herramientas y
modelos que desee.
LA METODOLOGÍA CRISP-DM
Comprensión del negocio: En esta fase se identifican los objetivos a conseguir
Adquisición de los datos: Identifica los datos necesarios para la consecución de los
objetivos
Preparación de los datos: Procesa los flujos de datos, solventar problemas de datos
faltantes, controlar las inconsistencias de los flujos de datos y realizar la limpieza y
estandarización de los datos.
Modelación: Determinar qué modelo o técnica es el más apropiado para la resolución del
problema a tratar y que técnicas a aplicar de forma consistente.
Evaluación e Interpretación: Visualiza y analiza de los datos obtenidos y su
correspondencia sobre los objetivos, la fiabilidad y calidad deseada.
Despliegue del Modelo: Se visualiza el conocimiento y los resultados obtenidos y se
muestran al cliente.
MODELOPS
• Se basa en la metodología Devops la cual se emplea para el
desarrollo de aplicaciones.
• Se centra en acelerar el proceso de creación de modelos desde su
fase inicial de laboratorio, validación y pruebas hasta su despliegue
con la calidad y fiabilidad.
• Permite el desarrollo y gestión de forma ágil de este tipo de
proyectos.
• Facilita la democratización y acercamiento de estas tecnologías a
todos los niveles de una organización.
• La alta flexibilidad de esta metodología basada en estas herramientas y
servicios en nube, permite construir todo el ciclo de vida de un proyecto
de Ciencia de Datos simplemente con un click.
• Se centra en el concepto de tubería
• Hace un seguimiento de los datos y los modelos a lo largo de todo el ciclo
de vida del proyecto.
• Permite de forma automática mejorar los modelos mediante un bucle
retroalimentado desde el interfaz de usuario al modelo de backend
• Se basa en un patrón de eventos, los cuales permiten controlar el tiempo
de ejecución de los modelos y las aplicaciones
VENTAJAS
• Gestiona y mantiene versiones distintas de un mismo modelo.
• Proporcionan una plataforma integrada en nube que permite a los
usuarios administrar e implementar modelos usando un flujo de
trabajo colaborativo y automatizado.
ESTRATEGIAS
• Primero es necesario clasificar las metodologías de los proyectos en
dos ejes: objetivos y proceso de solución.
• Segundo, si el proceso de Solución está definido y preestablecido o
si el proceso es ad-hoc y se descubre en la forma de desarrollar el
proyecto.
Estrategia lineal:
• Consiste en fases secuenciales sin bucles de retroalimentación.
• Se caracteriza por una solución de objetivos y requisitos claramente
definidos
Estrategia incremental:
• Similar a la estrategia lineal, pero cada fase del proyecto libera una
solución parcial.
• El valor debe entregarse antes de la fase final.
Estrategia iterativa:
• Similar a la estrategia incremental pero consistente de varias fases
repetidas
• Tratar de mapear y planificar completamente un entorno en
Estrategia adaptativa:
• Similar a la estrategia iterativa
• Es adaptativa porque el cliente solo conoce parcialmente la solución
final.
Estrategia extrema:
• Esta es una estrategia de tipo 4 porque tampoco se conoce el
objetivo ni el proceso de solución.
• El nivel de incertidumbre de los objetivos y el camino en este tipo
de proyectos conducen a un alto nivel de complejidad.
• El producto final es muy diferente de lo que se puede esperar en la
intención original.
Introducción a la Ciencia de Datos y el Big Data

Más contenido relacionado

Similar a Introducción a la Ciencia de Datos y el Big Data

Sistemas_de_Informacion.ppt
Sistemas_de_Informacion.pptSistemas_de_Informacion.ppt
Sistemas_de_Informacion.pptPedroFalcn
 
Desarrollo rápido de aplicaciones (rad)
Desarrollo rápido de aplicaciones (rad)Desarrollo rápido de aplicaciones (rad)
Desarrollo rápido de aplicaciones (rad)Jean Carlos Toa
 
4. Metodología-2020.pdf
4. Metodología-2020.pdf4. Metodología-2020.pdf
4. Metodología-2020.pdfOscarOlivar4
 
Modelos de desarrollo del software.
Modelos de desarrollo del software.Modelos de desarrollo del software.
Modelos de desarrollo del software.MiguelDiaz369
 
Metodologias rup
Metodologias rupMetodologias rup
Metodologias rupElvisAR
 
Cimientos(cap3)
Cimientos(cap3)Cimientos(cap3)
Cimientos(cap3)dlrdg
 
Diseño de Propuesta de Sistema de Información
Diseño de Propuesta de Sistema de InformaciónDiseño de Propuesta de Sistema de Información
Diseño de Propuesta de Sistema de Informaciónkatherine Gaspare
 
Metodología de Data Mining CRISP
Metodología de Data Mining CRISPMetodología de Data Mining CRISP
Metodología de Data Mining CRISPÓscar Alonso
 
Gestion de proyectos informaticos 2013 2
Gestion de proyectos informaticos 2013 2Gestion de proyectos informaticos 2013 2
Gestion de proyectos informaticos 2013 2Virginia Polcan
 
Presentación steelmood cais marzo 2014 copia
Presentación steelmood cais marzo 2014   copiaPresentación steelmood cais marzo 2014   copia
Presentación steelmood cais marzo 2014 copiaLeopoldo Vizoso
 
Arquitectura empresarial como prerrequisito para ciencia de datos
Arquitectura empresarial como prerrequisito para ciencia de datos Arquitectura empresarial como prerrequisito para ciencia de datos
Arquitectura empresarial como prerrequisito para ciencia de datos Software Guru
 
Expo metodologia de implementacion BI 01
Expo metodologia de implementacion BI 01Expo metodologia de implementacion BI 01
Expo metodologia de implementacion BI 01Cristian Quinteros
 

Similar a Introducción a la Ciencia de Datos y el Big Data (20)

Sistemas_de_Informacion.ppt
Sistemas_de_Informacion.pptSistemas_de_Informacion.ppt
Sistemas_de_Informacion.ppt
 
Desarrollo rápido de aplicaciones (rad)
Desarrollo rápido de aplicaciones (rad)Desarrollo rápido de aplicaciones (rad)
Desarrollo rápido de aplicaciones (rad)
 
Semana 1 2-3 (3)
Semana 1 2-3 (3)Semana 1 2-3 (3)
Semana 1 2-3 (3)
 
HERRAMIENTAS CASE
HERRAMIENTAS CASEHERRAMIENTAS CASE
HERRAMIENTAS CASE
 
4. Metodología-2020.pdf
4. Metodología-2020.pdf4. Metodología-2020.pdf
4. Metodología-2020.pdf
 
inf-162 presentacion
inf-162 presentacioninf-162 presentacion
inf-162 presentacion
 
Modelos de desarrollo del software.
Modelos de desarrollo del software.Modelos de desarrollo del software.
Modelos de desarrollo del software.
 
Metodologias rup
Metodologias rupMetodologias rup
Metodologias rup
 
Ciclo de vida
Ciclo de vidaCiclo de vida
Ciclo de vida
 
Dsdm_f
Dsdm_fDsdm_f
Dsdm_f
 
Cimientos(cap3)
Cimientos(cap3)Cimientos(cap3)
Cimientos(cap3)
 
Diseño de Propuesta de Sistema de Información
Diseño de Propuesta de Sistema de InformaciónDiseño de Propuesta de Sistema de Información
Diseño de Propuesta de Sistema de Información
 
Metodología de Data Mining CRISP
Metodología de Data Mining CRISPMetodología de Data Mining CRISP
Metodología de Data Mining CRISP
 
Gestion de proyectos informaticos 2013 2
Gestion de proyectos informaticos 2013 2Gestion de proyectos informaticos 2013 2
Gestion de proyectos informaticos 2013 2
 
Presentación steelmood cais marzo 2014 copia
Presentación steelmood cais marzo 2014   copiaPresentación steelmood cais marzo 2014   copia
Presentación steelmood cais marzo 2014 copia
 
Arquitectura empresarial como prerrequisito para ciencia de datos
Arquitectura empresarial como prerrequisito para ciencia de datos Arquitectura empresarial como prerrequisito para ciencia de datos
Arquitectura empresarial como prerrequisito para ciencia de datos
 
Metodologia rup
Metodologia rupMetodologia rup
Metodologia rup
 
Metodologia rup
Metodologia rupMetodologia rup
Metodologia rup
 
Metodologia rup
Metodologia rupMetodologia rup
Metodologia rup
 
Expo metodologia de implementacion BI 01
Expo metodologia de implementacion BI 01Expo metodologia de implementacion BI 01
Expo metodologia de implementacion BI 01
 

Último

PERFIL SECRETARIAL - SECRETARIADO EJECUTIVO
PERFIL SECRETARIAL - SECRETARIADO EJECUTIVOPERFIL SECRETARIAL - SECRETARIADO EJECUTIVO
PERFIL SECRETARIAL - SECRETARIADO EJECUTIVOAdrianaBernal82
 
PLANIFICACION ANUAL , año 2024. nivel primaria
PLANIFICACION ANUAL , año 2024. nivel primariaPLANIFICACION ANUAL , año 2024. nivel primaria
PLANIFICACION ANUAL , año 2024. nivel primariajosevilla696981
 
TALLER SOBRE METODOLOGÍAS DE DESARROLLO DE SOFTWARE..pdf
TALLER SOBRE METODOLOGÍAS DE DESARROLLO DE SOFTWARE..pdfTALLER SOBRE METODOLOGÍAS DE DESARROLLO DE SOFTWARE..pdf
TALLER SOBRE METODOLOGÍAS DE DESARROLLO DE SOFTWARE..pdfMiguelGomez900779
 
Presentación Materiales para la Construcción.ppt
Presentación Materiales para la Construcción.pptPresentación Materiales para la Construcción.ppt
Presentación Materiales para la Construcción.pptCARLOSAXELVENTURAVID
 
Home Assistant - Un Hub para controlarlos a todos
Home Assistant - Un Hub para controlarlos a todosHome Assistant - Un Hub para controlarlos a todos
Home Assistant - Un Hub para controlarlos a todosDebora Gomez Bertoli
 
linea de tiempo television y su avance en los años
linea de tiempo television y su avance en los añoslinea de tiempo television y su avance en los años
linea de tiempo television y su avance en los añosMaraPazCrdenas
 
644400074-LA-CONSOLIDACION-DE-LA-REPUBLICA-OLIGARQUICA-pdf.pptx
644400074-LA-CONSOLIDACION-DE-LA-REPUBLICA-OLIGARQUICA-pdf.pptx644400074-LA-CONSOLIDACION-DE-LA-REPUBLICA-OLIGARQUICA-pdf.pptx
644400074-LA-CONSOLIDACION-DE-LA-REPUBLICA-OLIGARQUICA-pdf.pptxRosiClaros
 
9-Sociales-Colombia siglo XX.pdf sociales
9-Sociales-Colombia siglo XX.pdf sociales9-Sociales-Colombia siglo XX.pdf sociales
9-Sociales-Colombia siglo XX.pdf socialesJhonathanRodriguez10
 

Último (8)

PERFIL SECRETARIAL - SECRETARIADO EJECUTIVO
PERFIL SECRETARIAL - SECRETARIADO EJECUTIVOPERFIL SECRETARIAL - SECRETARIADO EJECUTIVO
PERFIL SECRETARIAL - SECRETARIADO EJECUTIVO
 
PLANIFICACION ANUAL , año 2024. nivel primaria
PLANIFICACION ANUAL , año 2024. nivel primariaPLANIFICACION ANUAL , año 2024. nivel primaria
PLANIFICACION ANUAL , año 2024. nivel primaria
 
TALLER SOBRE METODOLOGÍAS DE DESARROLLO DE SOFTWARE..pdf
TALLER SOBRE METODOLOGÍAS DE DESARROLLO DE SOFTWARE..pdfTALLER SOBRE METODOLOGÍAS DE DESARROLLO DE SOFTWARE..pdf
TALLER SOBRE METODOLOGÍAS DE DESARROLLO DE SOFTWARE..pdf
 
Presentación Materiales para la Construcción.ppt
Presentación Materiales para la Construcción.pptPresentación Materiales para la Construcción.ppt
Presentación Materiales para la Construcción.ppt
 
Home Assistant - Un Hub para controlarlos a todos
Home Assistant - Un Hub para controlarlos a todosHome Assistant - Un Hub para controlarlos a todos
Home Assistant - Un Hub para controlarlos a todos
 
linea de tiempo television y su avance en los años
linea de tiempo television y su avance en los añoslinea de tiempo television y su avance en los años
linea de tiempo television y su avance en los años
 
644400074-LA-CONSOLIDACION-DE-LA-REPUBLICA-OLIGARQUICA-pdf.pptx
644400074-LA-CONSOLIDACION-DE-LA-REPUBLICA-OLIGARQUICA-pdf.pptx644400074-LA-CONSOLIDACION-DE-LA-REPUBLICA-OLIGARQUICA-pdf.pptx
644400074-LA-CONSOLIDACION-DE-LA-REPUBLICA-OLIGARQUICA-pdf.pptx
 
9-Sociales-Colombia siglo XX.pdf sociales
9-Sociales-Colombia siglo XX.pdf sociales9-Sociales-Colombia siglo XX.pdf sociales
9-Sociales-Colombia siglo XX.pdf sociales
 

Introducción a la Ciencia de Datos y el Big Data

  • 1. INTRODUCCIÓN A LA CIENCIA DE DATOS Y EL BIG DATA
  • 2. BIG DATA • Es un proyecto que está compuesto de procesos, etapas y un grupo de personas responsables. • la Ciencia de Datos es una disciplina de manipulación de grandes volúmenes de datos y el análisis • toma sus bases en la forma de administrar y ejecutar un proyecto tecnológico, el cual es el proceso que se sigue para construir, entregar y hacer evolucionar el software. • Se definen las distintas fases intermedias que se requieren para validar el desarrollo de un software • Ciencia de Datos se identifica dentro de un contexto multidisciplinar
  • 3. TECNICAS Entre las que destacan esta el : • Data Mining • Machine Learning • Deep Learning Ya que posibilitan enriquecer y crear conocimiento de negocio, Porque: • Optimiza la toma de decisiones • Extrae nueva información oculta entre los datos generados por la empresa
  • 4. • En diferentes estudios realizados, se confirma que más del 70% d un proyecto de Ciencia de Datos se centra el tratamiento de los datos para obtener el conocimiento necesario para la toma de decisiones y su aportación al negocio. • Estos productos pueden ser: ser un cuadro de mandos, un recomendador, clasificador o cualquier respuesta que facilite la toma de decisiones y actuaciones. • es necesario mantener los procesos de disposición de los datos, clasificación, selección, limpieza y reducción de los mismos. • Los desarrollos y proyectos de Ciencia de Datos deben construirse alrededor de un equipo multidisciplinar
  • 5. Uno de ellos es la metodología CRISP-DM • Creado en 1999 por SPSS, NCR y DaimlerChrysler • Mantiene un proceso estándar en seis fases que fue concebido para el desarrollo de proyectos de Data Mining • Busca la recolección y análisis de grandes volúmenes de datos. Otro estándar utilizado para proyectos de Data Mining es SEMMA • Se basan en el estándar CRIPS–DM y creada por SAS Institute en 1998. Por lo general y dado que los proyectos de Data Mining son sensibles y deficitarios de las fuentes generadoras de datos El modelo Catalyst creado en 2003, es un modelo que se exterioriza de los proyectos de CRM hacia los proyectos de Ciencia de Datos
  • 6. DIFERENCIAS Las diferencias más importantes entre estos tipos de metodologías es que: • CRIPS-DM, KDD o Catalyst se centran en las necesidades y comprensión del negocio • la metodología SEMA está más orientada al empleo de estadísticos para el muestreo de los datos. • Los resultados en CRIPS-DM se realiza en base al desempeño del modelo elegido y los objetivos marcados. • SEMA sólo hace referencia al desempeño del modelo. • En el caso de Catalyst la evaluación de los resultados se realiza únicamente en relación a los objetivos y requerimientos de la estrategia de negocio. • SEMA está orientada a las herramientas de SAS y por tanto los algoritmos y modelos que SAS proporciona • Las demás metodologías el analista de Ciencia de Datos puede emplear las herramientas y modelos que desee.
  • 7. LA METODOLOGÍA CRISP-DM Comprensión del negocio: En esta fase se identifican los objetivos a conseguir Adquisición de los datos: Identifica los datos necesarios para la consecución de los objetivos Preparación de los datos: Procesa los flujos de datos, solventar problemas de datos faltantes, controlar las inconsistencias de los flujos de datos y realizar la limpieza y estandarización de los datos. Modelación: Determinar qué modelo o técnica es el más apropiado para la resolución del problema a tratar y que técnicas a aplicar de forma consistente. Evaluación e Interpretación: Visualiza y analiza de los datos obtenidos y su correspondencia sobre los objetivos, la fiabilidad y calidad deseada. Despliegue del Modelo: Se visualiza el conocimiento y los resultados obtenidos y se muestran al cliente.
  • 8. MODELOPS • Se basa en la metodología Devops la cual se emplea para el desarrollo de aplicaciones. • Se centra en acelerar el proceso de creación de modelos desde su fase inicial de laboratorio, validación y pruebas hasta su despliegue con la calidad y fiabilidad. • Permite el desarrollo y gestión de forma ágil de este tipo de proyectos. • Facilita la democratización y acercamiento de estas tecnologías a todos los niveles de una organización.
  • 9. • La alta flexibilidad de esta metodología basada en estas herramientas y servicios en nube, permite construir todo el ciclo de vida de un proyecto de Ciencia de Datos simplemente con un click. • Se centra en el concepto de tubería • Hace un seguimiento de los datos y los modelos a lo largo de todo el ciclo de vida del proyecto. • Permite de forma automática mejorar los modelos mediante un bucle retroalimentado desde el interfaz de usuario al modelo de backend • Se basa en un patrón de eventos, los cuales permiten controlar el tiempo de ejecución de los modelos y las aplicaciones
  • 10. VENTAJAS • Gestiona y mantiene versiones distintas de un mismo modelo. • Proporcionan una plataforma integrada en nube que permite a los usuarios administrar e implementar modelos usando un flujo de trabajo colaborativo y automatizado.
  • 11.
  • 12. ESTRATEGIAS • Primero es necesario clasificar las metodologías de los proyectos en dos ejes: objetivos y proceso de solución. • Segundo, si el proceso de Solución está definido y preestablecido o si el proceso es ad-hoc y se descubre en la forma de desarrollar el proyecto.
  • 13. Estrategia lineal: • Consiste en fases secuenciales sin bucles de retroalimentación. • Se caracteriza por una solución de objetivos y requisitos claramente definidos Estrategia incremental: • Similar a la estrategia lineal, pero cada fase del proyecto libera una solución parcial. • El valor debe entregarse antes de la fase final. Estrategia iterativa: • Similar a la estrategia incremental pero consistente de varias fases repetidas • Tratar de mapear y planificar completamente un entorno en
  • 14. Estrategia adaptativa: • Similar a la estrategia iterativa • Es adaptativa porque el cliente solo conoce parcialmente la solución final. Estrategia extrema: • Esta es una estrategia de tipo 4 porque tampoco se conoce el objetivo ni el proceso de solución. • El nivel de incertidumbre de los objetivos y el camino en este tipo de proyectos conducen a un alto nivel de complejidad. • El producto final es muy diferente de lo que se puede esperar en la intención original.