SlideShare una empresa de Scribd logo
1 de 53
Descargar para leer sin conexión
Conceptos Básicos
Desde la Estadística hasta la
Ciencia de Datos, pasando
por el concepto de "Big Data"
AGENDA
1. Historia del Concepto: Ciencia de Datos
2. Evolución del Concepto: Ciencia de Datos
3. Estadística, Machine-Learning, Data-Mining, Big
Data, Ingeniería de Datos y Ciencia de Datos
4. Herramientas más utilizadas en Ciencia de Datos.
Conceptos en
Ciencia de Datos
Evolución del concepto “Ciencia de Datos”
• 1750 – 1970: Probabilidad y Estadística
• 1970 – 1990: Análisis de Datos (Exploratory Data
Analysis), SQL
• 1990 – 2000: OLAP (Online Analytical Processing)
• 2000 – 2005: Minería de Datos, Business Intelligence
• 2005 – 2011: Modelos Predictivos, Analytics, Machine
Learning
• 2011 – 2015: Big Data, Big Data Analytics.
• 2015 – presente: Ciencia de Datos o Ingeniería de Datos
¿Qué es Estadística?
Según el diccionario:
– Ciencia que utiliza conjuntos de datos numéricos para
obtener, a partir de ellos, inferencias basadas en el
cálculo de probabilidades.
– Estudio que reúne, clasifica y recuenta todos los hechos
que tienen una determinada característica en común,
para poder llegar a conclusiones a partir de los datos
numéricos extraídos.
¿Qué es Estadística?
Según el Wikipedia:
– La estadística es una rama de las matemáticas y una
herramienta que estudia usos y análisis provenientes de
una muestra representativa de datos, que busca explicar
las correlaciones y dependencias de un fenómeno físico
o natural, de ocurrencia en forma aleatoria o
condicional.
¿Qué es Minería de Datos?
– Extracción de información o de patrones (no
trivial, implícita, previamente desconocida y
potencialmente útil) de grandes bases de
datos.
¿Qué es Minería de Datos?
– Es analizar datos para encontrar patrones
ocultos usando medios automatizados.
Minería de Datos:
• La Minería de Datos: El corazón del
Proceso de Descubrimiento del
Conocimiento
Limpieza de Datos
Integración de Datos
Bases de Datos
Bodega de
Datos
Objetivo del Análisis
Selección
Minería de Datos
Evaluación
de Patrones
Minería de Datos versus Estadística
ü La estadística generalmente analiza muestras de datos para
luego hacer inferencia a toda la población, mientras que la
minería de datos pretende buscar información útil usando
toda la base datos.
ü La estadística en la mayoría de los casos supone que los datos
se comportan de acuerdo a ciertas distribuciones de
probabilidad (normal, binomial, geométrica, Poisson, etc),
mientras que la minería de datos usa técnicas mucho más
exploratorias que vienen de la IA, o del “Analyse des Données”.
Minería de Datos versus Machine Learning
– “Machine Learning”: es un área de la Inteligencia
Artificial (IA) que trata sobre como escribir programas
puedan aprender.
– En “Data Mining” es usualmente usado para predicción
y clasificación.
– Se divide en dos: aprendizaje supervisado (learns by
example) y aprendizaje no supervisado.
La Minería de Datos: Confluencia de Múltiples Disciplinas
Minería
de Datos
Tecnología
de Bases de Datos
Estadística
Otras
disciplinas
Ciencias de
la Información
Matemática Visualización
Tareas de la Minería de Datos
• Exploratorias:
– Buscar patrones humano-interpretables que
describen los datos
• Predictivas:
– Utiliza algunas de las variables para predecir los
valores futuros desconocidos de la misma variable o
bien de otras variables
Minería de Datos: ¿En qué tipo de datos?
• Bases de datos relacionales
• Bodegas de datos
• Bases de datos transaccionales
• Bases de datos orientadas a objetos y simbólicas
• Bases de datos espaciales Sistemas de Información Geográfica - GIS
• Series cronológicas de datos y los datos temporales
• Bases de datos de texto
• Bases de datos multimedia
• www (web mining)
¿Qué NO es Minería de Datos?
¿Qué NO es Minería de Datos?
• En general la Minería de Datos NO se basa en
modelos Determinísticos.
• Un modelo Determinístico es un modelo matemático
donde las mismas entradas producirán
invariablemente las mismas salidas, no
contemplándose la existencia del azar ni el principio
de incertidumbre.
¿Qué NO es Minería de Datos?
• En general la Minería de Datos se basa en modelos
Probabilísticos.
• Un modelo Probabilístico es un modelo matemático
que nos ayuda a predecir la conducta de futuras
repeticiones de un experimento aleatorio mediante
la estimación de una probabilidad de ocurrencia de
dicho evento concreto.
¿Qué es Big Data?
• Big Data es el término que popularmente designa
un crecimiento, disponibilidad y uso
exponenciales de la información estructurada y
no estructurada.
• Debido al gran Volumen, Variedad y Velocidad
que tienen los datos actualmente (las 3 V’s)
La Traducción Correcta
ØBig Data
• Datos Masivos
• Datos Gigantes
• Macrodatos
• Datos demasiado
grandes
• Grandes volúmenes
de datos
¿Es una moda?
• Big Data: el término de moda en el mundo de la informática y de la
Administración de Negocios (MBA)
• Big Data no es fácil de definir ya que, en mi opinión, es un nuevo
término “inventado para el marketing”
• Durante 2012-2013 más del 60% de los artículos de opinión de
tecnología avanzada hablan de Big Data como la nueva estrategia
indispensable para las empresas de cualquier sector, declarando,
poco menos, que aquéllos que no se sumen a este nuevo
movimiento se quedarán “obsoletas” en cuanto a la capacidad de
reacción en sus decisiones, perdiendo competitividad y
oportunidades de negocio contra su competencia.
Breve Historia de Big Data
• Siempre es difícil identificar como surgen los conceptos y
paradigmas. “Big Data” no supone una excepción a esta regla,
siendo difícil identificar si surge como consecuencia o
acompañante de otros conceptos como el “Open Data”
• La popularización del término Big Data viene, sin duda, ligada al
documento del concepto publicado por McKinsey Global Institute
en Junio de 2011, en el cual se define como “conjuntos de datos
cuyo tamaño va más allá de la capacidad de captura,
almacenado, gestión y análisis de las herramientas de base de
datos tradicionales”
Breve Historia de Big Data
Breve Historia de Big Data
Los datos (la vida) en la nube:
Big Data y Cloud Computing
La computación en la nube,
concepto conocido también bajo
los términos servicios en la
nube, informática en la nube,
nube de cómputo o nube de
conceptos, del inglés “cloud
computing", es un paradigma
que permite ofrecer servicios de
computación a través de
Internet.
¿Qué es Big Data?
“Big data” son activos de información caracterizados por su alto
volumen, velocidad y variedad, que demandan soluciones
innovadoras y eficientes de procesado para la mejora del
conocimiento y toma de decisiones en las organizaciones.
¿Qué es Big Data?
• Big Data es el término que popularmente designa un
crecimiento, disponibilidad y uso exponenciales de la
información estructurada y no estructurada.
• Debido al gran Volumen, Variedad y Velocidad que
tienen los datos actualmente (las 3 V’s)
El significado de Big Data - 3 V’s
• Big Volume
• Big Velocity
• Big Variety
Las 4 dimensiones de “Big Data”
• Volumen: …
• Velocidad: …
• Variedad: …
• Veracidad: Por último el Big Data ha de ser capaz
de tratar y analizar inteligentemente este
inmenso volumen de datos con la finalidad de
obtener una información verídica y útil que nos
permita mejorar la toma de decisiones en las
organizaciones.
Fuente: Dr. Carlos González
Características de Big Data
¿Qué tan grande es Big Data?
Lo que es grande hoy en día
tal vez no lo sea mañana
Dos Eventos Importantes
• Evolución de la
capacidad de
almacenamiento
• Explosión en los
datos
Evolución de la Capacidad de Almacenamiento
Fuente: Masahiro Mizuta
Evolución de la Capacidad de Almacenamiento
Fuente: Masahiro Mizuta
Evolución de la Capacidad de Almacenamiento
Fuente: Masahiro Mizuta
Explosión en los Datos
Fuente: Masahiro Mizuta
Explosión en los Datos
Fuente: Masahiro Mizuta
¿Quién genera “Big Data”?
Redes Sociales Instrumentos científicos
Dispositivos Móviles
Tecnología de sensores y redes
38
Bancos
Comercio
39
Big Data - Big Analytics
• Se requieren de complejas operaciones matemáticas (machine learning,
statistical elearning , clustering, trend detection, ….)
– Análisis Exploratorio
– Modelos Predictivos
– Modelos de sumarización
– Modelos simbólicos
• Mayor poder computacional y algoritmos eficientes para poder ejecutar
operaciones como (en matrices gigantes):
– Matrix multiply
– QR decomposition
– SVD decomposition
– Linear regression
Plataforma de código abierto
“Hadoop”
• Open-source software framework de Apache
• Inspirada en:
– Google Map-Reduce
– GFS (Google File System)
§ HDFS
§ Map/Reduce
Plataforma de código abierto “Hadoop”
Ambiente distribuido
Posiblemente en la nube
Data Warehouse
Red Local
Big Data
analytic
applications
Traditional
analytic
tools
R-Hadoop: Statistical tools for
managing Big Data
¿Qué es Ciencia de Datos?
• [Wikipedia] La ciencia de datos es un
campo interdisciplinario que involucra
métodos científicos, procesos y sistemas
para extraer conocimiento o un mejor
entendimiento de datos en sus diferentes
formas, ya sea estructurados o no
estructurados, lo cual es una continuación
de algunos campos de análisis de datos
como la estadística, la minería de datos, el
aprendizaje automático y la analítica
predictiva.
¿Qué es Ciencia de Datos?
¿Qué es un Científico(a) de Datos?
• [Josh Wills] "Científico de datos: Persona
que sabe más de estadística que cualquier
programador y que a la vez sabe más de
programación que cualquier estadístico".
• Un científico de datos es sencillamente un
profesional dedicado a analizar e
interpretar grandes bases de datos.
• Científico capacitado para crear sus propios
modelos dado un juego de datos, es decir,
conoce los fundamentos de los métodos y
no solo usa “cajas negras”.
Herramientas en
Ciencia de Datos
Python en la actualidad
• R es un lenguaje enfocado al análisis de
datos, la estadístico, la minería de
datos, la visualización de modelos.
• John Chambers: “R es lenguaje creado
por un estadístico para hacer
estadística”.
• Python es un lenguaje de propósito
general enfocado a la reutilización de
código.
• Python es un lenguaje orientado a
objetos que permite una fácil
integración a los sistemas de una
organización.
Entonces… ¿con cuál me quedo?
• Esta pregunta quizás sea la más complicada a la que dar respuesta.
• El uso de uno y otro debe por tanto estar motivado por la respuesta
a la siguiente pregunta: ¿Qué tipo de problema quiero resolver?
• Optaremos por uno u otro en función del tipo de análisis de datos
que queramos llevar a cabo, ya sea Machine Learning, Data Mining,
analítica web, etc.
• Así, R es una muy buena opción cuando el análisis de datos requiere
una computación independiente o un análisis individual en los
servidores.
• Mientras que Python lo usaremos cuando el análisis de datos
requiera ser integrado con las aplicaciones web o si necesitamos
incorporar el código de análisis estadístico en una base de datos de
producción.
Muchas gracias
por su atención….

Más contenido relacionado

Similar a Conceptos en Ciencia de Datos

Análisis de Datos.pdf
Análisis de Datos.pdfAnálisis de Datos.pdf
Análisis de Datos.pdfDarnelyC
 
introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------RubnGarcs2
 
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...Joaquín Borrego-Díaz
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouseEduardo Castro
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azureEduardo Castro
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeEduardo Castro
 
Big Data Analytics: Oportunidades, Retos y Tendencias
Big Data Analytics: Oportunidades, Retos y TendenciasBig Data Analytics: Oportunidades, Retos y Tendencias
Big Data Analytics: Oportunidades, Retos y TendenciasLuis Felipe Tabares Pérez
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 
BIG DATA (MACRODATOS).pdf
BIG DATA (MACRODATOS).pdfBIG DATA (MACRODATOS).pdf
BIG DATA (MACRODATOS).pdfssuser88a1941
 
La geografía y la estadística. dos necesidades para entender big data
La geografía y la estadística. dos necesidades para entender big dataLa geografía y la estadística. dos necesidades para entender big data
La geografía y la estadística. dos necesidades para entender big datapedro_juanes
 
Innovación en el tratamiento de la información desde la Ingeniería del Conoc...
Innovación en el tratamiento de la información desde la  Ingeniería del Conoc...Innovación en el tratamiento de la información desde la  Ingeniería del Conoc...
Innovación en el tratamiento de la información desde la Ingeniería del Conoc...Joaquín Borrego-Díaz
 
Big Data para Bibliotecas de Salud 2015
Big Data para Bibliotecas de Salud 2015Big Data para Bibliotecas de Salud 2015
Big Data para Bibliotecas de Salud 2015Jorge Serrano-Cobos
 
Big data con SQL Server 2014
Big data con SQL Server 2014Big data con SQL Server 2014
Big data con SQL Server 2014Eduardo Castro
 
El Big Data como fenómeno y herramienta para el e‐research en CSyH Digitales
El Big Data como fenómeno y herramienta para el e‐research en CSyH DigitalesEl Big Data como fenómeno y herramienta para el e‐research en CSyH Digitales
El Big Data como fenómeno y herramienta para el e‐research en CSyH DigitalesMaría Sánchez González (@cibermarikiya)
 

Similar a Conceptos en Ciencia de Datos (20)

Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
 
Análisis de Datos.pdf
Análisis de Datos.pdfAnálisis de Datos.pdf
Análisis de Datos.pdf
 
introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------
 
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
Información Adaptativa, Ingeniería del Conocimiento e Inteligencia Colectiva ...
 
Big data
Big dataBig data
Big data
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azure
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nube
 
Big Data Analytics: Oportunidades, Retos y Tendencias
Big Data Analytics: Oportunidades, Retos y TendenciasBig Data Analytics: Oportunidades, Retos y Tendencias
Big Data Analytics: Oportunidades, Retos y Tendencias
 
Introduccion a mineria de datos
Introduccion a mineria de datosIntroduccion a mineria de datos
Introduccion a mineria de datos
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
BIG DATA (MACRODATOS).pdf
BIG DATA (MACRODATOS).pdfBIG DATA (MACRODATOS).pdf
BIG DATA (MACRODATOS).pdf
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
La geografía y la estadística. dos necesidades para entender big data
La geografía y la estadística. dos necesidades para entender big dataLa geografía y la estadística. dos necesidades para entender big data
La geografía y la estadística. dos necesidades para entender big data
 
Innovación en el tratamiento de la información desde la Ingeniería del Conoc...
Innovación en el tratamiento de la información desde la  Ingeniería del Conoc...Innovación en el tratamiento de la información desde la  Ingeniería del Conoc...
Innovación en el tratamiento de la información desde la Ingeniería del Conoc...
 
Big Data para Bibliotecas de Salud 2015
Big Data para Bibliotecas de Salud 2015Big Data para Bibliotecas de Salud 2015
Big Data para Bibliotecas de Salud 2015
 
2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx
 
Big data con SQL Server 2014
Big data con SQL Server 2014Big data con SQL Server 2014
Big data con SQL Server 2014
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
El Big Data como fenómeno y herramienta para el e‐research en CSyH Digitales
El Big Data como fenómeno y herramienta para el e‐research en CSyH DigitalesEl Big Data como fenómeno y herramienta para el e‐research en CSyH Digitales
El Big Data como fenómeno y herramienta para el e‐research en CSyH Digitales
 

Último

Claves Obstétricas roja, azul y amarilla
Claves Obstétricas roja, azul y amarillaClaves Obstétricas roja, azul y amarilla
Claves Obstétricas roja, azul y amarillasarahimena4
 
Infecciones de la piel y partes blandas(Impétigo, celulitis, erisipela, absce...
Infecciones de la piel y partes blandas(Impétigo, celulitis, erisipela, absce...Infecciones de la piel y partes blandas(Impétigo, celulitis, erisipela, absce...
Infecciones de la piel y partes blandas(Impétigo, celulitis, erisipela, absce... Estefa RM9
 
La salud y sus determinantes, mapa conceptual
La salud y sus determinantes, mapa conceptualLa salud y sus determinantes, mapa conceptual
La salud y sus determinantes, mapa conceptualABIGAILESTRELLA8
 
Mapa-conceptual-del-Sistema-Circulatorio-2.pptx
Mapa-conceptual-del-Sistema-Circulatorio-2.pptxMapa-conceptual-del-Sistema-Circulatorio-2.pptx
Mapa-conceptual-del-Sistema-Circulatorio-2.pptxJhonDarwinSnchezVsqu1
 
alimentacion en mujer embarazada y lactante
alimentacion en mujer embarazada y lactantealimentacion en mujer embarazada y lactante
alimentacion en mujer embarazada y lactantealejandra674717
 
musculos y partes del tronco clase de medicina.pdf
musculos y partes del tronco clase de medicina.pdfmusculos y partes del tronco clase de medicina.pdf
musculos y partes del tronco clase de medicina.pdfKelymarHernandez
 
tecnicas quirurgicas de urologia enfermeria
tecnicas quirurgicas de urologia enfermeriatecnicas quirurgicas de urologia enfermeria
tecnicas quirurgicas de urologia enfermeriaCuauhtemoc EO
 
Clase 14 Articulacion del Codo y Muñeca 2024.pdf
Clase 14 Articulacion del Codo y Muñeca 2024.pdfClase 14 Articulacion del Codo y Muñeca 2024.pdf
Clase 14 Articulacion del Codo y Muñeca 2024.pdfgarrotamara01
 
infectologiadengue-111108235224-phpapp01.pdf
infectologiadengue-111108235224-phpapp01.pdfinfectologiadengue-111108235224-phpapp01.pdf
infectologiadengue-111108235224-phpapp01.pdfpknkpqdx8q
 
tecnicas practivas DIGITOPUNTURA SHIATZU.ppt
tecnicas practivas DIGITOPUNTURA SHIATZU.ppttecnicas practivas DIGITOPUNTURA SHIATZU.ppt
tecnicas practivas DIGITOPUNTURA SHIATZU.pptLEONCIOVASQUEZMARIN2
 
caso clinico relacionado con cancer gastrico.pptx
caso clinico relacionado con cancer gastrico.pptxcaso clinico relacionado con cancer gastrico.pptx
caso clinico relacionado con cancer gastrico.pptxkimperezsaucedo
 
Lesiones en el pie--Traumatología...pptx
Lesiones en el pie--Traumatología...pptxLesiones en el pie--Traumatología...pptx
Lesiones en el pie--Traumatología...pptx Estefa RM9
 
mapa-conceptual-del-sistema-endocrino-4-2.pptx
mapa-conceptual-del-sistema-endocrino-4-2.pptxmapa-conceptual-del-sistema-endocrino-4-2.pptx
mapa-conceptual-del-sistema-endocrino-4-2.pptxDanielPedrozaHernand
 
posiciones anatómicas del curso de enfermería
posiciones anatómicas del curso de enfermeríaposiciones anatómicas del curso de enfermería
posiciones anatómicas del curso de enfermería75665053
 
Trabajo de parto y mecanismos de trabajo de parto.pdf
Trabajo de parto y mecanismos de trabajo de parto.pdfTrabajo de parto y mecanismos de trabajo de parto.pdf
Trabajo de parto y mecanismos de trabajo de parto.pdfLizbehPrez1
 
GENERALIDADES SOBRE LA CESAREA, RESIDENCIA DE GINECOLOGIA Y OBSTETRICIA
GENERALIDADES SOBRE LA CESAREA, RESIDENCIA DE GINECOLOGIA Y OBSTETRICIAGENERALIDADES SOBRE LA CESAREA, RESIDENCIA DE GINECOLOGIA Y OBSTETRICIA
GENERALIDADES SOBRE LA CESAREA, RESIDENCIA DE GINECOLOGIA Y OBSTETRICIAYinetCastilloPea
 
Edema agudo de pulmón. fisiopatología, clínica, diagnóstico,
Edema agudo de pulmón. fisiopatología, clínica, diagnóstico,Edema agudo de pulmón. fisiopatología, clínica, diagnóstico,
Edema agudo de pulmón. fisiopatología, clínica, diagnóstico,ssuseref6ae6
 
NERVIO OLFATORIO. PARES CRANEALES. SISTEMA NERVIOSO
NERVIO OLFATORIO. PARES CRANEALES. SISTEMA NERVIOSONERVIO OLFATORIO. PARES CRANEALES. SISTEMA NERVIOSO
NERVIO OLFATORIO. PARES CRANEALES. SISTEMA NERVIOSOEPICRISISHQN1
 
DETERIORO NEUROLOGICO EN PREMATUROS.pptx
DETERIORO NEUROLOGICO EN PREMATUROS.pptxDETERIORO NEUROLOGICO EN PREMATUROS.pptx
DETERIORO NEUROLOGICO EN PREMATUROS.pptxPamelaBarahona11
 
PONENCIA DE PRESENTACIÓN DEL CURSO DE IOB-COP
PONENCIA DE PRESENTACIÓN DEL CURSO DE IOB-COPPONENCIA DE PRESENTACIÓN DEL CURSO DE IOB-COP
PONENCIA DE PRESENTACIÓN DEL CURSO DE IOB-COPRicardo Benza
 

Último (20)

Claves Obstétricas roja, azul y amarilla
Claves Obstétricas roja, azul y amarillaClaves Obstétricas roja, azul y amarilla
Claves Obstétricas roja, azul y amarilla
 
Infecciones de la piel y partes blandas(Impétigo, celulitis, erisipela, absce...
Infecciones de la piel y partes blandas(Impétigo, celulitis, erisipela, absce...Infecciones de la piel y partes blandas(Impétigo, celulitis, erisipela, absce...
Infecciones de la piel y partes blandas(Impétigo, celulitis, erisipela, absce...
 
La salud y sus determinantes, mapa conceptual
La salud y sus determinantes, mapa conceptualLa salud y sus determinantes, mapa conceptual
La salud y sus determinantes, mapa conceptual
 
Mapa-conceptual-del-Sistema-Circulatorio-2.pptx
Mapa-conceptual-del-Sistema-Circulatorio-2.pptxMapa-conceptual-del-Sistema-Circulatorio-2.pptx
Mapa-conceptual-del-Sistema-Circulatorio-2.pptx
 
alimentacion en mujer embarazada y lactante
alimentacion en mujer embarazada y lactantealimentacion en mujer embarazada y lactante
alimentacion en mujer embarazada y lactante
 
musculos y partes del tronco clase de medicina.pdf
musculos y partes del tronco clase de medicina.pdfmusculos y partes del tronco clase de medicina.pdf
musculos y partes del tronco clase de medicina.pdf
 
tecnicas quirurgicas de urologia enfermeria
tecnicas quirurgicas de urologia enfermeriatecnicas quirurgicas de urologia enfermeria
tecnicas quirurgicas de urologia enfermeria
 
Clase 14 Articulacion del Codo y Muñeca 2024.pdf
Clase 14 Articulacion del Codo y Muñeca 2024.pdfClase 14 Articulacion del Codo y Muñeca 2024.pdf
Clase 14 Articulacion del Codo y Muñeca 2024.pdf
 
infectologiadengue-111108235224-phpapp01.pdf
infectologiadengue-111108235224-phpapp01.pdfinfectologiadengue-111108235224-phpapp01.pdf
infectologiadengue-111108235224-phpapp01.pdf
 
tecnicas practivas DIGITOPUNTURA SHIATZU.ppt
tecnicas practivas DIGITOPUNTURA SHIATZU.ppttecnicas practivas DIGITOPUNTURA SHIATZU.ppt
tecnicas practivas DIGITOPUNTURA SHIATZU.ppt
 
caso clinico relacionado con cancer gastrico.pptx
caso clinico relacionado con cancer gastrico.pptxcaso clinico relacionado con cancer gastrico.pptx
caso clinico relacionado con cancer gastrico.pptx
 
Lesiones en el pie--Traumatología...pptx
Lesiones en el pie--Traumatología...pptxLesiones en el pie--Traumatología...pptx
Lesiones en el pie--Traumatología...pptx
 
mapa-conceptual-del-sistema-endocrino-4-2.pptx
mapa-conceptual-del-sistema-endocrino-4-2.pptxmapa-conceptual-del-sistema-endocrino-4-2.pptx
mapa-conceptual-del-sistema-endocrino-4-2.pptx
 
posiciones anatómicas del curso de enfermería
posiciones anatómicas del curso de enfermeríaposiciones anatómicas del curso de enfermería
posiciones anatómicas del curso de enfermería
 
Trabajo de parto y mecanismos de trabajo de parto.pdf
Trabajo de parto y mecanismos de trabajo de parto.pdfTrabajo de parto y mecanismos de trabajo de parto.pdf
Trabajo de parto y mecanismos de trabajo de parto.pdf
 
GENERALIDADES SOBRE LA CESAREA, RESIDENCIA DE GINECOLOGIA Y OBSTETRICIA
GENERALIDADES SOBRE LA CESAREA, RESIDENCIA DE GINECOLOGIA Y OBSTETRICIAGENERALIDADES SOBRE LA CESAREA, RESIDENCIA DE GINECOLOGIA Y OBSTETRICIA
GENERALIDADES SOBRE LA CESAREA, RESIDENCIA DE GINECOLOGIA Y OBSTETRICIA
 
Edema agudo de pulmón. fisiopatología, clínica, diagnóstico,
Edema agudo de pulmón. fisiopatología, clínica, diagnóstico,Edema agudo de pulmón. fisiopatología, clínica, diagnóstico,
Edema agudo de pulmón. fisiopatología, clínica, diagnóstico,
 
NERVIO OLFATORIO. PARES CRANEALES. SISTEMA NERVIOSO
NERVIO OLFATORIO. PARES CRANEALES. SISTEMA NERVIOSONERVIO OLFATORIO. PARES CRANEALES. SISTEMA NERVIOSO
NERVIO OLFATORIO. PARES CRANEALES. SISTEMA NERVIOSO
 
DETERIORO NEUROLOGICO EN PREMATUROS.pptx
DETERIORO NEUROLOGICO EN PREMATUROS.pptxDETERIORO NEUROLOGICO EN PREMATUROS.pptx
DETERIORO NEUROLOGICO EN PREMATUROS.pptx
 
PONENCIA DE PRESENTACIÓN DEL CURSO DE IOB-COP
PONENCIA DE PRESENTACIÓN DEL CURSO DE IOB-COPPONENCIA DE PRESENTACIÓN DEL CURSO DE IOB-COP
PONENCIA DE PRESENTACIÓN DEL CURSO DE IOB-COP
 

Conceptos en Ciencia de Datos

  • 1. Conceptos Básicos Desde la Estadística hasta la Ciencia de Datos, pasando por el concepto de "Big Data"
  • 2. AGENDA 1. Historia del Concepto: Ciencia de Datos 2. Evolución del Concepto: Ciencia de Datos 3. Estadística, Machine-Learning, Data-Mining, Big Data, Ingeniería de Datos y Ciencia de Datos 4. Herramientas más utilizadas en Ciencia de Datos.
  • 4. Evolución del concepto “Ciencia de Datos” • 1750 – 1970: Probabilidad y Estadística • 1970 – 1990: Análisis de Datos (Exploratory Data Analysis), SQL • 1990 – 2000: OLAP (Online Analytical Processing) • 2000 – 2005: Minería de Datos, Business Intelligence • 2005 – 2011: Modelos Predictivos, Analytics, Machine Learning • 2011 – 2015: Big Data, Big Data Analytics. • 2015 – presente: Ciencia de Datos o Ingeniería de Datos
  • 5. ¿Qué es Estadística? Según el diccionario: – Ciencia que utiliza conjuntos de datos numéricos para obtener, a partir de ellos, inferencias basadas en el cálculo de probabilidades. – Estudio que reúne, clasifica y recuenta todos los hechos que tienen una determinada característica en común, para poder llegar a conclusiones a partir de los datos numéricos extraídos.
  • 6. ¿Qué es Estadística? Según el Wikipedia: – La estadística es una rama de las matemáticas y una herramienta que estudia usos y análisis provenientes de una muestra representativa de datos, que busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.
  • 7. ¿Qué es Minería de Datos? – Extracción de información o de patrones (no trivial, implícita, previamente desconocida y potencialmente útil) de grandes bases de datos.
  • 8. ¿Qué es Minería de Datos? – Es analizar datos para encontrar patrones ocultos usando medios automatizados.
  • 9. Minería de Datos: • La Minería de Datos: El corazón del Proceso de Descubrimiento del Conocimiento Limpieza de Datos Integración de Datos Bases de Datos Bodega de Datos Objetivo del Análisis Selección Minería de Datos Evaluación de Patrones
  • 10. Minería de Datos versus Estadística ü La estadística generalmente analiza muestras de datos para luego hacer inferencia a toda la población, mientras que la minería de datos pretende buscar información útil usando toda la base datos. ü La estadística en la mayoría de los casos supone que los datos se comportan de acuerdo a ciertas distribuciones de probabilidad (normal, binomial, geométrica, Poisson, etc), mientras que la minería de datos usa técnicas mucho más exploratorias que vienen de la IA, o del “Analyse des Données”.
  • 11. Minería de Datos versus Machine Learning – “Machine Learning”: es un área de la Inteligencia Artificial (IA) que trata sobre como escribir programas puedan aprender. – En “Data Mining” es usualmente usado para predicción y clasificación. – Se divide en dos: aprendizaje supervisado (learns by example) y aprendizaje no supervisado.
  • 12. La Minería de Datos: Confluencia de Múltiples Disciplinas Minería de Datos Tecnología de Bases de Datos Estadística Otras disciplinas Ciencias de la Información Matemática Visualización
  • 13. Tareas de la Minería de Datos • Exploratorias: – Buscar patrones humano-interpretables que describen los datos • Predictivas: – Utiliza algunas de las variables para predecir los valores futuros desconocidos de la misma variable o bien de otras variables
  • 14.
  • 15. Minería de Datos: ¿En qué tipo de datos? • Bases de datos relacionales • Bodegas de datos • Bases de datos transaccionales • Bases de datos orientadas a objetos y simbólicas • Bases de datos espaciales Sistemas de Información Geográfica - GIS • Series cronológicas de datos y los datos temporales • Bases de datos de texto • Bases de datos multimedia • www (web mining)
  • 16. ¿Qué NO es Minería de Datos?
  • 17. ¿Qué NO es Minería de Datos? • En general la Minería de Datos NO se basa en modelos Determinísticos. • Un modelo Determinístico es un modelo matemático donde las mismas entradas producirán invariablemente las mismas salidas, no contemplándose la existencia del azar ni el principio de incertidumbre.
  • 18. ¿Qué NO es Minería de Datos? • En general la Minería de Datos se basa en modelos Probabilísticos. • Un modelo Probabilístico es un modelo matemático que nos ayuda a predecir la conducta de futuras repeticiones de un experimento aleatorio mediante la estimación de una probabilidad de ocurrencia de dicho evento concreto.
  • 19. ¿Qué es Big Data? • Big Data es el término que popularmente designa un crecimiento, disponibilidad y uso exponenciales de la información estructurada y no estructurada. • Debido al gran Volumen, Variedad y Velocidad que tienen los datos actualmente (las 3 V’s)
  • 20. La Traducción Correcta ØBig Data • Datos Masivos • Datos Gigantes • Macrodatos • Datos demasiado grandes • Grandes volúmenes de datos
  • 21. ¿Es una moda? • Big Data: el término de moda en el mundo de la informática y de la Administración de Negocios (MBA) • Big Data no es fácil de definir ya que, en mi opinión, es un nuevo término “inventado para el marketing” • Durante 2012-2013 más del 60% de los artículos de opinión de tecnología avanzada hablan de Big Data como la nueva estrategia indispensable para las empresas de cualquier sector, declarando, poco menos, que aquéllos que no se sumen a este nuevo movimiento se quedarán “obsoletas” en cuanto a la capacidad de reacción en sus decisiones, perdiendo competitividad y oportunidades de negocio contra su competencia.
  • 22. Breve Historia de Big Data • Siempre es difícil identificar como surgen los conceptos y paradigmas. “Big Data” no supone una excepción a esta regla, siendo difícil identificar si surge como consecuencia o acompañante de otros conceptos como el “Open Data” • La popularización del término Big Data viene, sin duda, ligada al documento del concepto publicado por McKinsey Global Institute en Junio de 2011, en el cual se define como “conjuntos de datos cuyo tamaño va más allá de la capacidad de captura, almacenado, gestión y análisis de las herramientas de base de datos tradicionales”
  • 23. Breve Historia de Big Data
  • 24. Breve Historia de Big Data
  • 25. Los datos (la vida) en la nube: Big Data y Cloud Computing La computación en la nube, concepto conocido también bajo los términos servicios en la nube, informática en la nube, nube de cómputo o nube de conceptos, del inglés “cloud computing", es un paradigma que permite ofrecer servicios de computación a través de Internet.
  • 26. ¿Qué es Big Data? “Big data” son activos de información caracterizados por su alto volumen, velocidad y variedad, que demandan soluciones innovadoras y eficientes de procesado para la mejora del conocimiento y toma de decisiones en las organizaciones.
  • 27. ¿Qué es Big Data? • Big Data es el término que popularmente designa un crecimiento, disponibilidad y uso exponenciales de la información estructurada y no estructurada. • Debido al gran Volumen, Variedad y Velocidad que tienen los datos actualmente (las 3 V’s)
  • 28. El significado de Big Data - 3 V’s • Big Volume • Big Velocity • Big Variety
  • 29. Las 4 dimensiones de “Big Data” • Volumen: … • Velocidad: … • Variedad: … • Veracidad: Por último el Big Data ha de ser capaz de tratar y analizar inteligentemente este inmenso volumen de datos con la finalidad de obtener una información verídica y útil que nos permita mejorar la toma de decisiones en las organizaciones.
  • 30. Fuente: Dr. Carlos González
  • 31. Características de Big Data ¿Qué tan grande es Big Data? Lo que es grande hoy en día tal vez no lo sea mañana
  • 32. Dos Eventos Importantes • Evolución de la capacidad de almacenamiento • Explosión en los datos
  • 33. Evolución de la Capacidad de Almacenamiento Fuente: Masahiro Mizuta
  • 34. Evolución de la Capacidad de Almacenamiento Fuente: Masahiro Mizuta
  • 35. Evolución de la Capacidad de Almacenamiento Fuente: Masahiro Mizuta
  • 36. Explosión en los Datos Fuente: Masahiro Mizuta
  • 37. Explosión en los Datos Fuente: Masahiro Mizuta
  • 38. ¿Quién genera “Big Data”? Redes Sociales Instrumentos científicos Dispositivos Móviles Tecnología de sensores y redes 38 Bancos Comercio
  • 39. 39 Big Data - Big Analytics • Se requieren de complejas operaciones matemáticas (machine learning, statistical elearning , clustering, trend detection, ….) – Análisis Exploratorio – Modelos Predictivos – Modelos de sumarización – Modelos simbólicos • Mayor poder computacional y algoritmos eficientes para poder ejecutar operaciones como (en matrices gigantes): – Matrix multiply – QR decomposition – SVD decomposition – Linear regression
  • 40. Plataforma de código abierto “Hadoop” • Open-source software framework de Apache • Inspirada en: – Google Map-Reduce – GFS (Google File System) § HDFS § Map/Reduce
  • 41. Plataforma de código abierto “Hadoop” Ambiente distribuido Posiblemente en la nube Data Warehouse Red Local Big Data analytic applications Traditional analytic tools R-Hadoop: Statistical tools for managing Big Data
  • 42. ¿Qué es Ciencia de Datos? • [Wikipedia] La ciencia de datos es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados, lo cual es una continuación de algunos campos de análisis de datos como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva.
  • 43. ¿Qué es Ciencia de Datos?
  • 44. ¿Qué es un Científico(a) de Datos? • [Josh Wills] "Científico de datos: Persona que sabe más de estadística que cualquier programador y que a la vez sabe más de programación que cualquier estadístico". • Un científico de datos es sencillamente un profesional dedicado a analizar e interpretar grandes bases de datos. • Científico capacitado para crear sus propios modelos dado un juego de datos, es decir, conoce los fundamentos de los métodos y no solo usa “cajas negras”.
  • 46. Python en la actualidad
  • 47.
  • 48.
  • 49. • R es un lenguaje enfocado al análisis de datos, la estadístico, la minería de datos, la visualización de modelos. • John Chambers: “R es lenguaje creado por un estadístico para hacer estadística”.
  • 50. • Python es un lenguaje de propósito general enfocado a la reutilización de código. • Python es un lenguaje orientado a objetos que permite una fácil integración a los sistemas de una organización.
  • 51.
  • 52. Entonces… ¿con cuál me quedo? • Esta pregunta quizás sea la más complicada a la que dar respuesta. • El uso de uno y otro debe por tanto estar motivado por la respuesta a la siguiente pregunta: ¿Qué tipo de problema quiero resolver? • Optaremos por uno u otro en función del tipo de análisis de datos que queramos llevar a cabo, ya sea Machine Learning, Data Mining, analítica web, etc. • Así, R es una muy buena opción cuando el análisis de datos requiere una computación independiente o un análisis individual en los servidores. • Mientras que Python lo usaremos cuando el análisis de datos requiera ser integrado con las aplicaciones web o si necesitamos incorporar el código de análisis estadístico en una base de datos de producción.
  • 53. Muchas gracias por su atención….