SlideShare una empresa de Scribd logo
INTRODUCCIÓN A LA
CIENCIA DE DATOS Y
EL BIG DATA
BIG DATA
• Es un proyecto que está compuesto de procesos, etapas y un grupo de
personas responsables.
• la Ciencia de Datos es una disciplina de manipulación de grandes
volúmenes de datos y el análisis
• toma sus bases en la forma de administrar y ejecutar un proyecto
tecnológico, el cual es el proceso que se sigue para construir, entregar y
hacer evolucionar el software.
• Se definen las distintas fases intermedias que se requieren para validar el
desarrollo de un software
• Ciencia de Datos se identifica dentro de un contexto multidisciplinar
TECNICAS
Entre las que destacan esta el :
• Data Mining
• Machine Learning
• Deep Learning
Ya que posibilitan enriquecer y crear conocimiento de negocio, Porque:
• Optimiza la toma de decisiones
• Extrae nueva información oculta entre los datos generados por la
empresa
• En diferentes estudios realizados, se confirma que más del 70% d
un proyecto de Ciencia de Datos se centra el tratamiento de los
datos para obtener el conocimiento necesario para la toma de
decisiones y su aportación al negocio.
• Estos productos pueden ser: ser un cuadro de mandos, un
recomendador, clasificador o cualquier respuesta que facilite la
toma de decisiones y actuaciones.
• es necesario mantener los procesos de disposición de los datos,
clasificación, selección, limpieza y reducción de los mismos.
• Los desarrollos y proyectos de Ciencia de Datos deben construirse
alrededor de un equipo multidisciplinar
Uno de ellos es la metodología CRISP-DM
• Creado en 1999 por SPSS, NCR y DaimlerChrysler
• Mantiene un proceso estándar en seis fases que fue concebido para el desarrollo
de proyectos de Data Mining
• Busca la recolección y análisis de grandes volúmenes de datos.
Otro estándar utilizado para proyectos de Data Mining es SEMMA
• Se basan en el estándar CRIPS–DM y creada por SAS Institute en 1998.
Por lo general y dado que los proyectos de Data Mining son sensibles y deficitarios
de las fuentes generadoras de datos
El modelo Catalyst creado en 2003, es un modelo que se exterioriza de los
proyectos de CRM hacia los proyectos de Ciencia de Datos
DIFERENCIAS
Las diferencias más importantes entre estos tipos de metodologías es que:
• CRIPS-DM, KDD o Catalyst se centran en las necesidades y comprensión del negocio
• la metodología SEMA está más orientada al empleo de estadísticos para el muestreo de los
datos.
• Los resultados en CRIPS-DM se realiza en base al desempeño del modelo elegido y los objetivos
marcados.
• SEMA sólo hace referencia al desempeño del modelo.
• En el caso de Catalyst la evaluación de los resultados se realiza únicamente en relación a los
objetivos y requerimientos de la estrategia de negocio.
• SEMA está orientada a las herramientas de SAS y por tanto los algoritmos y modelos que SAS
proporciona
• Las demás metodologías el analista de Ciencia de Datos puede emplear las herramientas y
modelos que desee.
LA METODOLOGÍA CRISP-DM
Comprensión del negocio: En esta fase se identifican los objetivos a conseguir
Adquisición de los datos: Identifica los datos necesarios para la consecución de los
objetivos
Preparación de los datos: Procesa los flujos de datos, solventar problemas de datos
faltantes, controlar las inconsistencias de los flujos de datos y realizar la limpieza y
estandarización de los datos.
Modelación: Determinar qué modelo o técnica es el más apropiado para la resolución del
problema a tratar y que técnicas a aplicar de forma consistente.
Evaluación e Interpretación: Visualiza y analiza de los datos obtenidos y su
correspondencia sobre los objetivos, la fiabilidad y calidad deseada.
Despliegue del Modelo: Se visualiza el conocimiento y los resultados obtenidos y se
muestran al cliente.
MODELOPS
• Se basa en la metodología Devops la cual se emplea para el
desarrollo de aplicaciones.
• Se centra en acelerar el proceso de creación de modelos desde su
fase inicial de laboratorio, validación y pruebas hasta su despliegue
con la calidad y fiabilidad.
• Permite el desarrollo y gestión de forma ágil de este tipo de
proyectos.
• Facilita la democratización y acercamiento de estas tecnologías a
todos los niveles de una organización.
• La alta flexibilidad de esta metodología basada en estas herramientas y
servicios en nube, permite construir todo el ciclo de vida de un proyecto
de Ciencia de Datos simplemente con un click.
• Se centra en el concepto de tubería
• Hace un seguimiento de los datos y los modelos a lo largo de todo el ciclo
de vida del proyecto.
• Permite de forma automática mejorar los modelos mediante un bucle
retroalimentado desde el interfaz de usuario al modelo de backend
• Se basa en un patrón de eventos, los cuales permiten controlar el tiempo
de ejecución de los modelos y las aplicaciones
VENTAJAS
• Gestiona y mantiene versiones distintas de un mismo modelo.
• Proporcionan una plataforma integrada en nube que permite a los
usuarios administrar e implementar modelos usando un flujo de
trabajo colaborativo y automatizado.
ESTRATEGIAS
• Primero es necesario clasificar las metodologías de los proyectos en
dos ejes: objetivos y proceso de solución.
• Segundo, si el proceso de Solución está definido y preestablecido o
si el proceso es ad-hoc y se descubre en la forma de desarrollar el
proyecto.
Estrategia lineal:
• Consiste en fases secuenciales sin bucles de retroalimentación.
• Se caracteriza por una solución de objetivos y requisitos claramente
definidos
Estrategia incremental:
• Similar a la estrategia lineal, pero cada fase del proyecto libera una
solución parcial.
• El valor debe entregarse antes de la fase final.
Estrategia iterativa:
• Similar a la estrategia incremental pero consistente de varias fases
repetidas
• Tratar de mapear y planificar completamente un entorno en
Estrategia adaptativa:
• Similar a la estrategia iterativa
• Es adaptativa porque el cliente solo conoce parcialmente la solución
final.
Estrategia extrema:
• Esta es una estrategia de tipo 4 porque tampoco se conoce el
objetivo ni el proceso de solución.
• El nivel de incertidumbre de los objetivos y el camino en este tipo
de proyectos conducen a un alto nivel de complejidad.
• El producto final es muy diferente de lo que se puede esperar en la
intención original.
INTRODUCCIÓN A LA CIENCIA DE DATOS.pptx

Más contenido relacionado

Similar a INTRODUCCIÓN A LA CIENCIA DE DATOS.pptx

Sistemas_de_Informacion.ppt
Sistemas_de_Informacion.pptSistemas_de_Informacion.ppt
Sistemas_de_Informacion.ppt
PedroFalcn
 
Desarrollo rápido de aplicaciones (rad)
Desarrollo rápido de aplicaciones (rad)Desarrollo rápido de aplicaciones (rad)
Desarrollo rápido de aplicaciones (rad)Jean Carlos Toa
 
Semana 1 2-3 (3)
Semana 1 2-3 (3)Semana 1 2-3 (3)
Semana 1 2-3 (3)
J Martin Luzon
 
HERRAMIENTAS CASE
HERRAMIENTAS CASEHERRAMIENTAS CASE
HERRAMIENTAS CASE
Gabriel Peñaranda
 
4. Metodología-2020.pdf
4. Metodología-2020.pdf4. Metodología-2020.pdf
4. Metodología-2020.pdf
OscarOlivar4
 
METODOLOGIAS CLASES Y GENERACIONES RUP - SCRUM
METODOLOGIAS CLASES Y GENERACIONES RUP - SCRUMMETODOLOGIAS CLASES Y GENERACIONES RUP - SCRUM
METODOLOGIAS CLASES Y GENERACIONES RUP - SCRUM
MilagrosCz
 
inf-162 presentacion
inf-162 presentacioninf-162 presentacion
inf-162 presentacion
ERICKRODRIGOQUISPETI
 
Modelos de desarrollo del software.
Modelos de desarrollo del software.Modelos de desarrollo del software.
Modelos de desarrollo del software.
MiguelDiaz369
 
Metodologias rup
Metodologias rupMetodologias rup
Metodologias rup
ElvisAR
 
Dsdm_f
Dsdm_fDsdm_f
Cimientos(cap3)
Cimientos(cap3)Cimientos(cap3)
Cimientos(cap3)
dlrdg
 
Diseño de Propuesta de Sistema de Información
Diseño de Propuesta de Sistema de InformaciónDiseño de Propuesta de Sistema de Información
Diseño de Propuesta de Sistema de Información
katherine Gaspare
 
Metodología de Data Mining CRISP
Metodología de Data Mining CRISPMetodología de Data Mining CRISP
Metodología de Data Mining CRISPÓscar Alonso
 
Gestion de proyectos informaticos 2013 2
Gestion de proyectos informaticos 2013 2Gestion de proyectos informaticos 2013 2
Gestion de proyectos informaticos 2013 2
Virginia Polcan
 
Presentación steelmood cais marzo 2014 copia
Presentación steelmood cais marzo 2014   copiaPresentación steelmood cais marzo 2014   copia
Presentación steelmood cais marzo 2014 copia
Leopoldo Vizoso
 
Arquitectura empresarial como prerrequisito para ciencia de datos
Arquitectura empresarial como prerrequisito para ciencia de datos Arquitectura empresarial como prerrequisito para ciencia de datos
Arquitectura empresarial como prerrequisito para ciencia de datos
Software Guru
 
Metodologia rup
Metodologia rupMetodologia rup
Metodologia rup
Maria Garcia
 

Similar a INTRODUCCIÓN A LA CIENCIA DE DATOS.pptx (20)

Sistemas_de_Informacion.ppt
Sistemas_de_Informacion.pptSistemas_de_Informacion.ppt
Sistemas_de_Informacion.ppt
 
Desarrollo rápido de aplicaciones (rad)
Desarrollo rápido de aplicaciones (rad)Desarrollo rápido de aplicaciones (rad)
Desarrollo rápido de aplicaciones (rad)
 
Semana 1 2-3 (3)
Semana 1 2-3 (3)Semana 1 2-3 (3)
Semana 1 2-3 (3)
 
HERRAMIENTAS CASE
HERRAMIENTAS CASEHERRAMIENTAS CASE
HERRAMIENTAS CASE
 
4. Metodología-2020.pdf
4. Metodología-2020.pdf4. Metodología-2020.pdf
4. Metodología-2020.pdf
 
METODOLOGIAS CLASES Y GENERACIONES RUP - SCRUM
METODOLOGIAS CLASES Y GENERACIONES RUP - SCRUMMETODOLOGIAS CLASES Y GENERACIONES RUP - SCRUM
METODOLOGIAS CLASES Y GENERACIONES RUP - SCRUM
 
inf-162 presentacion
inf-162 presentacioninf-162 presentacion
inf-162 presentacion
 
Modelos de desarrollo del software.
Modelos de desarrollo del software.Modelos de desarrollo del software.
Modelos de desarrollo del software.
 
Metodologias rup
Metodologias rupMetodologias rup
Metodologias rup
 
Ciclo de vida
Ciclo de vidaCiclo de vida
Ciclo de vida
 
Dsdm_f
Dsdm_fDsdm_f
Dsdm_f
 
Cimientos(cap3)
Cimientos(cap3)Cimientos(cap3)
Cimientos(cap3)
 
Diseño de Propuesta de Sistema de Información
Diseño de Propuesta de Sistema de InformaciónDiseño de Propuesta de Sistema de Información
Diseño de Propuesta de Sistema de Información
 
Metodología de Data Mining CRISP
Metodología de Data Mining CRISPMetodología de Data Mining CRISP
Metodología de Data Mining CRISP
 
Gestion de proyectos informaticos 2013 2
Gestion de proyectos informaticos 2013 2Gestion de proyectos informaticos 2013 2
Gestion de proyectos informaticos 2013 2
 
Presentación steelmood cais marzo 2014 copia
Presentación steelmood cais marzo 2014   copiaPresentación steelmood cais marzo 2014   copia
Presentación steelmood cais marzo 2014 copia
 
Arquitectura empresarial como prerrequisito para ciencia de datos
Arquitectura empresarial como prerrequisito para ciencia de datos Arquitectura empresarial como prerrequisito para ciencia de datos
Arquitectura empresarial como prerrequisito para ciencia de datos
 
Metodologia rup
Metodologia rupMetodologia rup
Metodologia rup
 
Metodologia rup
Metodologia rupMetodologia rup
Metodologia rup
 
Metodologia rup
Metodologia rupMetodologia rup
Metodologia rup
 

Último

Presentación- PLATAFORMA VIRTUAL E-LEARNING .pptx
Presentación-  PLATAFORMA VIRTUAL E-LEARNING .pptxPresentación-  PLATAFORMA VIRTUAL E-LEARNING .pptx
Presentación- PLATAFORMA VIRTUAL E-LEARNING .pptx
arelisguerra707
 
TRABAJO DE TECNOLOGIA increíble y próspero epico
TRABAJO DE TECNOLOGIA increíble y próspero epicoTRABAJO DE TECNOLOGIA increíble y próspero epico
TRABAJO DE TECNOLOGIA increíble y próspero epico
edepjuanorozco
 
TECLADO ERGONÓMICO Y PANTALLAS TACTILES.
TECLADO ERGONÓMICO Y PANTALLAS TACTILES.TECLADO ERGONÓMICO Y PANTALLAS TACTILES.
TECLADO ERGONÓMICO Y PANTALLAS TACTILES.
FransuaPeralta
 
Solucionario 5° P2P16.pptxihiuhiuhihihini
Solucionario 5° P2P16.pptxihiuhiuhihihiniSolucionario 5° P2P16.pptxihiuhiuhihihini
Solucionario 5° P2P16.pptxihiuhiuhihihini
corderojulia187
 
TAREA DE TECNOLOGIA DE LA FICHHA 1 Y DOS
TAREA DE TECNOLOGIA DE LA FICHHA 1 Y DOSTAREA DE TECNOLOGIA DE LA FICHHA 1 Y DOS
TAREA DE TECNOLOGIA DE LA FICHHA 1 Y DOS
darlingreserved
 
QUÉ ES ALARA proteccion rayografica.pptx
QUÉ ES ALARA proteccion rayografica.pptxQUÉ ES ALARA proteccion rayografica.pptx
QUÉ ES ALARA proteccion rayografica.pptx
AnthonyFernandoArias
 
Las plantas ornamental su importancia, sus variedades etc
Las plantas ornamental su importancia, sus variedades etcLas plantas ornamental su importancia, sus variedades etc
Las plantas ornamental su importancia, sus variedades etc
60475271
 
MODELO PEDAG DE LA FPI SENA PARA LA FORMACION PROFESIONAL E INTEGRAL
MODELO PEDAG DE LA FPI SENA PARA LA FORMACION PROFESIONAL E INTEGRALMODELO PEDAG DE LA FPI SENA PARA LA FORMACION PROFESIONAL E INTEGRAL
MODELO PEDAG DE LA FPI SENA PARA LA FORMACION PROFESIONAL E INTEGRAL
Fernando540828
 

Último (8)

Presentación- PLATAFORMA VIRTUAL E-LEARNING .pptx
Presentación-  PLATAFORMA VIRTUAL E-LEARNING .pptxPresentación-  PLATAFORMA VIRTUAL E-LEARNING .pptx
Presentación- PLATAFORMA VIRTUAL E-LEARNING .pptx
 
TRABAJO DE TECNOLOGIA increíble y próspero epico
TRABAJO DE TECNOLOGIA increíble y próspero epicoTRABAJO DE TECNOLOGIA increíble y próspero epico
TRABAJO DE TECNOLOGIA increíble y próspero epico
 
TECLADO ERGONÓMICO Y PANTALLAS TACTILES.
TECLADO ERGONÓMICO Y PANTALLAS TACTILES.TECLADO ERGONÓMICO Y PANTALLAS TACTILES.
TECLADO ERGONÓMICO Y PANTALLAS TACTILES.
 
Solucionario 5° P2P16.pptxihiuhiuhihihini
Solucionario 5° P2P16.pptxihiuhiuhihihiniSolucionario 5° P2P16.pptxihiuhiuhihihini
Solucionario 5° P2P16.pptxihiuhiuhihihini
 
TAREA DE TECNOLOGIA DE LA FICHHA 1 Y DOS
TAREA DE TECNOLOGIA DE LA FICHHA 1 Y DOSTAREA DE TECNOLOGIA DE LA FICHHA 1 Y DOS
TAREA DE TECNOLOGIA DE LA FICHHA 1 Y DOS
 
QUÉ ES ALARA proteccion rayografica.pptx
QUÉ ES ALARA proteccion rayografica.pptxQUÉ ES ALARA proteccion rayografica.pptx
QUÉ ES ALARA proteccion rayografica.pptx
 
Las plantas ornamental su importancia, sus variedades etc
Las plantas ornamental su importancia, sus variedades etcLas plantas ornamental su importancia, sus variedades etc
Las plantas ornamental su importancia, sus variedades etc
 
MODELO PEDAG DE LA FPI SENA PARA LA FORMACION PROFESIONAL E INTEGRAL
MODELO PEDAG DE LA FPI SENA PARA LA FORMACION PROFESIONAL E INTEGRALMODELO PEDAG DE LA FPI SENA PARA LA FORMACION PROFESIONAL E INTEGRAL
MODELO PEDAG DE LA FPI SENA PARA LA FORMACION PROFESIONAL E INTEGRAL
 

INTRODUCCIÓN A LA CIENCIA DE DATOS.pptx

  • 1. INTRODUCCIÓN A LA CIENCIA DE DATOS Y EL BIG DATA
  • 2. BIG DATA • Es un proyecto que está compuesto de procesos, etapas y un grupo de personas responsables. • la Ciencia de Datos es una disciplina de manipulación de grandes volúmenes de datos y el análisis • toma sus bases en la forma de administrar y ejecutar un proyecto tecnológico, el cual es el proceso que se sigue para construir, entregar y hacer evolucionar el software. • Se definen las distintas fases intermedias que se requieren para validar el desarrollo de un software • Ciencia de Datos se identifica dentro de un contexto multidisciplinar
  • 3. TECNICAS Entre las que destacan esta el : • Data Mining • Machine Learning • Deep Learning Ya que posibilitan enriquecer y crear conocimiento de negocio, Porque: • Optimiza la toma de decisiones • Extrae nueva información oculta entre los datos generados por la empresa
  • 4. • En diferentes estudios realizados, se confirma que más del 70% d un proyecto de Ciencia de Datos se centra el tratamiento de los datos para obtener el conocimiento necesario para la toma de decisiones y su aportación al negocio. • Estos productos pueden ser: ser un cuadro de mandos, un recomendador, clasificador o cualquier respuesta que facilite la toma de decisiones y actuaciones. • es necesario mantener los procesos de disposición de los datos, clasificación, selección, limpieza y reducción de los mismos. • Los desarrollos y proyectos de Ciencia de Datos deben construirse alrededor de un equipo multidisciplinar
  • 5. Uno de ellos es la metodología CRISP-DM • Creado en 1999 por SPSS, NCR y DaimlerChrysler • Mantiene un proceso estándar en seis fases que fue concebido para el desarrollo de proyectos de Data Mining • Busca la recolección y análisis de grandes volúmenes de datos. Otro estándar utilizado para proyectos de Data Mining es SEMMA • Se basan en el estándar CRIPS–DM y creada por SAS Institute en 1998. Por lo general y dado que los proyectos de Data Mining son sensibles y deficitarios de las fuentes generadoras de datos El modelo Catalyst creado en 2003, es un modelo que se exterioriza de los proyectos de CRM hacia los proyectos de Ciencia de Datos
  • 6. DIFERENCIAS Las diferencias más importantes entre estos tipos de metodologías es que: • CRIPS-DM, KDD o Catalyst se centran en las necesidades y comprensión del negocio • la metodología SEMA está más orientada al empleo de estadísticos para el muestreo de los datos. • Los resultados en CRIPS-DM se realiza en base al desempeño del modelo elegido y los objetivos marcados. • SEMA sólo hace referencia al desempeño del modelo. • En el caso de Catalyst la evaluación de los resultados se realiza únicamente en relación a los objetivos y requerimientos de la estrategia de negocio. • SEMA está orientada a las herramientas de SAS y por tanto los algoritmos y modelos que SAS proporciona • Las demás metodologías el analista de Ciencia de Datos puede emplear las herramientas y modelos que desee.
  • 7. LA METODOLOGÍA CRISP-DM Comprensión del negocio: En esta fase se identifican los objetivos a conseguir Adquisición de los datos: Identifica los datos necesarios para la consecución de los objetivos Preparación de los datos: Procesa los flujos de datos, solventar problemas de datos faltantes, controlar las inconsistencias de los flujos de datos y realizar la limpieza y estandarización de los datos. Modelación: Determinar qué modelo o técnica es el más apropiado para la resolución del problema a tratar y que técnicas a aplicar de forma consistente. Evaluación e Interpretación: Visualiza y analiza de los datos obtenidos y su correspondencia sobre los objetivos, la fiabilidad y calidad deseada. Despliegue del Modelo: Se visualiza el conocimiento y los resultados obtenidos y se muestran al cliente.
  • 8. MODELOPS • Se basa en la metodología Devops la cual se emplea para el desarrollo de aplicaciones. • Se centra en acelerar el proceso de creación de modelos desde su fase inicial de laboratorio, validación y pruebas hasta su despliegue con la calidad y fiabilidad. • Permite el desarrollo y gestión de forma ágil de este tipo de proyectos. • Facilita la democratización y acercamiento de estas tecnologías a todos los niveles de una organización.
  • 9. • La alta flexibilidad de esta metodología basada en estas herramientas y servicios en nube, permite construir todo el ciclo de vida de un proyecto de Ciencia de Datos simplemente con un click. • Se centra en el concepto de tubería • Hace un seguimiento de los datos y los modelos a lo largo de todo el ciclo de vida del proyecto. • Permite de forma automática mejorar los modelos mediante un bucle retroalimentado desde el interfaz de usuario al modelo de backend • Se basa en un patrón de eventos, los cuales permiten controlar el tiempo de ejecución de los modelos y las aplicaciones
  • 10. VENTAJAS • Gestiona y mantiene versiones distintas de un mismo modelo. • Proporcionan una plataforma integrada en nube que permite a los usuarios administrar e implementar modelos usando un flujo de trabajo colaborativo y automatizado.
  • 11.
  • 12. ESTRATEGIAS • Primero es necesario clasificar las metodologías de los proyectos en dos ejes: objetivos y proceso de solución. • Segundo, si el proceso de Solución está definido y preestablecido o si el proceso es ad-hoc y se descubre en la forma de desarrollar el proyecto.
  • 13. Estrategia lineal: • Consiste en fases secuenciales sin bucles de retroalimentación. • Se caracteriza por una solución de objetivos y requisitos claramente definidos Estrategia incremental: • Similar a la estrategia lineal, pero cada fase del proyecto libera una solución parcial. • El valor debe entregarse antes de la fase final. Estrategia iterativa: • Similar a la estrategia incremental pero consistente de varias fases repetidas • Tratar de mapear y planificar completamente un entorno en
  • 14. Estrategia adaptativa: • Similar a la estrategia iterativa • Es adaptativa porque el cliente solo conoce parcialmente la solución final. Estrategia extrema: • Esta es una estrategia de tipo 4 porque tampoco se conoce el objetivo ni el proceso de solución. • El nivel de incertidumbre de los objetivos y el camino en este tipo de proyectos conducen a un alto nivel de complejidad. • El producto final es muy diferente de lo que se puede esperar en la intención original.