SlideShare una empresa de Scribd logo
1 de 48
Descargar para leer sin conexión
MATEMÁTICA Y DATA SCIENCE
Preparado como parte de las Actividades por el LI Aniversario de la Carrera
de Matemática
M.Sc. Aldo Ramiro Valdez Alvarado
Marzo de 2018
La Revolución de los Datos
Y llega el Big Data
Data Science: Una definición…
De la Minería de Datos al Machine Learning
El Proceso de Data Science
Herramientas más importantes
Índice
1
2
3
4
5
6
La Revolución de los Datos1
El proyecto del Genoma Humano
http://www.sdss.org/
El proyecto Sloan Digital Sky Survey
IoT
Internet en 60 segundos
En 2007 solo el 7% de la
información estaba en
medios analógicos
(libros, revistas, fotografías
en papel, etc.)
En 2012 la información
digital alcanzó a nivel
mundial 2.837 exabytes
(miles de millones de
gigabytes). Puestos en
DVDs, la torre sería de
400.000 Kms, más que la
distancia de la Tierra a la
Luna.
Google procesa más de 24
Petabytes/día, información
equivalente a varios miles
de veces la biblioteca del
congreso de USA
Y llega el Big Data2
En el 2001, el analista Doug Laney de META Group (ahora
Gartner) utilizaba y definía el término Big Data como:
“el conjunto de técnicas y tecnologías para el tratamiento
de datos, en entornos de gran volumen, variedad de
orígenes y en los que la velocidad de respuesta es crítica”.
•Crecimiento exponencial.
•Terabytes, petabyte, …
Volumen
•Frecuencia de generación.
•Procesado en tiempo real.
Velocidad
•Diferentes formatos.
•Diferentes estructuras.
Variedad
IBM introdujo la cuarta V
Data Science: Una
definición…
3
• La ciencia de datos (Data Science) implica el uso de
métodos para analizar cantidades masivas de datos y
extraer el conocimiento que se contienen en estas.
• La ciencia de datos representa la optimización de
procesos y recursos.
• La ciencia de datos produce información valiosa:
conclusiones o predicciones procesables, basadas en
datos, que usted puede usar para comprender y mejorar
su negocio, sus inversiones, su salud e incluso su estilo de
vida y su vida social. (Cielen, 2016)
• La ciencia de datos (Data Science) es la ciencia
computacional de la extracción de conocimientos
significativos a partir de datos brutos y luego la
comunicación efectiva de esos conocimientos para
generar valor. (Pierson, 2017)
• En un mundo dirigido por los datos, la ciencia de datos
(Data Science) se puede definir como algo que los
cientistas de datos hacen. (Haider, 2016)
Un Científico de Datos (Data
Scientist) es una persona con
habilidades matemáticas,
estadísticas, computacionales
(que sabe programar) y de
visualización de datos que lo
llevan a encontrar los
patrones que le servirán a la
empresa o institución para
capitalizar la información
recogida. (Valdés, 2015)
Data Scientist
La ciencia de los datos se basa en gran medida en las
habilidades matemáticas y estadísticas de un
profesional, precisamente porque estas son las
habilidades necesarias para comprender sus datos y
su importancia. Estas habilidades pueden usarse para
llevar a cabo modelos predictivos, modelos de
decisiones y pruebas de hipótesis.
La matemática usa métodos determinísticos para
formar una descripción cuantitativa (o numérica) del
mundo; la estadística es una ciencia que se deriva de
las matemáticas, pero se centra en el uso de un
enfoque estocástico (probabilidades) y métodos
inferenciales para formar una descripción
cuantitativa del mundo.
Los científicos usan los métodos matemáticos para
construir modelos de decisión, generar
aproximaciones y hacer predicciones sobre el
futuro.
De la Minería de Datos al
Machine Learning
4
La minería de datos trata de resolver problemas
mediante el análisis de datos, mismos que ya están
presentes en las bases de datos.
Minería de datos
La minería de datos se define como el proceso de
descubrir patrones en los datos. El proceso debe ser
automático o semiautomático. Los patrones
descubiertos deben ser significativos ya que
conducen a alguna ventaja, generalmente una ventaja
económica. Los datos están invariablemente
presentes en cantidades sustanciales.
La minería de datos trata de técnicas para encontrar y
describir patrones estructurales en los datos. La
mayoría de las técnicas que se tienen se han
desarrollado dentro de un campo, conocido como
aprendizaje automático (Machine Learning).
Machine Learning
El Aprendizaje Automático es un campo en la
Inteligencia Artificial, donde las máquinas pueden
"aprender" de sí mismas, sin ser explícitamente
programadas por los seres humanos. Analizando datos
pasados llamados "datos de entrenamiento", el modelo
de Aprendizaje Automático forma patrones y usa estos
patrones para aprender y hacer predicciones futuras.
El aprendizaje automático o Machine Learning es un método
científico que nos permite usar los ordenadores y otros dispositivos
con capacidad computacional para que aprendan a extraer los
patrones y relaciones que hay en nuestros datos por sí solos. Esos
patrones se pueden usar luego para predecir comportamientos y
en la toma de decisiones.
Aprendizaje
Supervisado
• Modelos Predictivos.
• La máquina aprende
explícitamente.
• Predice el futuro a
partir de datos
históricos.
• Resuelve problemas
de clasificación y
regresión.
Aprendizaje No
Supervisado
• Modelos
Descriptivos.
• La máquina entiende
los datos.
• La evaluación es
cualitativa o
indirecta.
• No realiza
predicciones,
encuentra algo
específico.
Aprendizaje
Reforzado
• Un enfoque de la IA
• Aprendizaje basado
en los hallazgos.
• La máquina aprende
a como actuar en un
determinado
entorno.
• Maximiza los
hallazgos.
El Proceso de Data Science5
1. Establecer el objetivo de la investigación
2. Recuperar datos
3. Preparar datos
4. Explorar datos
5. Modelar datos
6. Presentar y automatizar
• Definir el objetivo de la investigación.
• Crear el cronograma del proyecto.
1. Establecer
Objetivo
• Para los datos internes, se determina
quién es el dueño y se los recupera.
• De igual forma para los datos externos.
2. Recuperar
Datos
• Limpiar los datos, de posibles errores en
la entrada de datos, de valores
físicamente imposibles, valores faltantes…
3. Preparar
Datos
• Transformar los datos, agregando o
extrapolando datos, reduciendo el número
de variables.
• Combinar los datos, mezclando conjuntos
de datos, creando vistas…
3.
Preparar
Datos
• A través de simples gráficas, gráficas
combinadas, o de otras técnicas que no
sean gráficas.
4.
Explorar
Datos
• Seleccionar las variables y el modelo.
• Ejecutar el modelo.
• Realizar el diagnóstico y la
comparación.
5. Modelar
Datos
• Presentar los datos.
• Automatizar el análisis de datos.
6. Presentar
y
Automatizar
Herramientas más
importantes
6
Aldo Ramiro Valdez Alvarado
Licenciado en Informática
Master en Dirección Estrategica en Tecnologías de la Información
Máster en Business Intelligence y Big Data
Docente Titular de Pregrado en la UMSA
Docente de Postgrado en la UMSA y otras Universidades
Ex - Coordinador del Postgrado en Informática UMSA
Conferencista Nacional e Internacional
http://aldovaldezalvarado.blogspot.com/
https://www.linkedin.com/in/msc-aldo-valdez-alvarado-17464820
aldo_valdez@hotmail.com

Más contenido relacionado

Similar a Matemática y Data Science

1.Unidad1. Fundamentos DataScience.pptx
1.Unidad1. Fundamentos DataScience.pptx1.Unidad1. Fundamentos DataScience.pptx
1.Unidad1. Fundamentos DataScience.pptxRupertoCisneros3
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de DatosLuisAzofeifa6
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining PabloMolina111
 
introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------RubnGarcs2
 
Big data & data mining
Big data & data miningBig data & data mining
Big data & data miningrenfer64
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 
Etapas del proceso de investigacion2_IAFJSR
Etapas del proceso de investigacion2_IAFJSREtapas del proceso de investigacion2_IAFJSR
Etapas del proceso de investigacion2_IAFJSRMauri Rojas
 
Fases y tareas del proceso de investigacion de informacion. Mercadotecnia
Fases y tareas del proceso de investigacion de informacion. MercadotecniaFases y tareas del proceso de investigacion de informacion. Mercadotecnia
Fases y tareas del proceso de investigacion de informacion. MercadotecniaBeatrizLilianaCarrera
 
Mineria y modelado de datos
Mineria y modelado de datosMineria y modelado de datos
Mineria y modelado de datosSergio Salimbeni
 

Similar a Matemática y Data Science (20)

1.Unidad1. Fundamentos DataScience.pptx
1.Unidad1. Fundamentos DataScience.pptx1.Unidad1. Fundamentos DataScience.pptx
1.Unidad1. Fundamentos DataScience.pptx
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de Datos
 
2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining
 
Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------
 
Big data & data mining
Big data & data miningBig data & data mining
Big data & data mining
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datos
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Etapas del proceso de investigacion2_IAFJSR
Etapas del proceso de investigacion2_IAFJSREtapas del proceso de investigacion2_IAFJSR
Etapas del proceso de investigacion2_IAFJSR
 
Fases y tareas del proceso de investigacion de informacion. Mercadotecnia
Fases y tareas del proceso de investigacion de informacion. MercadotecniaFases y tareas del proceso de investigacion de informacion. Mercadotecnia
Fases y tareas del proceso de investigacion de informacion. Mercadotecnia
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Data Science: Correlación curricular
Data Science: Correlación curricularData Science: Correlación curricular
Data Science: Correlación curricular
 
Data mining
Data miningData mining
Data mining
 
Mineria y modelado de datos
Mineria y modelado de datosMineria y modelado de datos
Mineria y modelado de datos
 
Power-BI-básico.pdf
Power-BI-básico.pdfPower-BI-básico.pdf
Power-BI-básico.pdf
 
Conociendo big data
Conociendo big dataConociendo big data
Conociendo big data
 

Más de MSc Aldo Valdez Alvarado

Más de MSc Aldo Valdez Alvarado (20)

Introducción a la Ciberseguridad
Introducción a la CiberseguridadIntroducción a la Ciberseguridad
Introducción a la Ciberseguridad
 
3. Modelo ER - Relacional
3. Modelo ER - Relacional3. Modelo ER - Relacional
3. Modelo ER - Relacional
 
2. Modelo ER - Relacional
2. Modelo ER - Relacional2. Modelo ER - Relacional
2. Modelo ER - Relacional
 
1. Modelo de Datos
1. Modelo de Datos1. Modelo de Datos
1. Modelo de Datos
 
Algunas aplicaciones del Blockchain
Algunas aplicaciones del BlockchainAlgunas aplicaciones del Blockchain
Algunas aplicaciones del Blockchain
 
El Blockchain más allá del Bitcoin
El Blockchain más allá del BitcoinEl Blockchain más allá del Bitcoin
El Blockchain más allá del Bitcoin
 
5. SQL
5. SQL5. SQL
5. SQL
 
Python con Anaconda
Python con AnacondaPython con Anaconda
Python con Anaconda
 
3. Modelo Relacional
3. Modelo Relacional3. Modelo Relacional
3. Modelo Relacional
 
Plataformas IoT Open Source
Plataformas IoT Open SourcePlataformas IoT Open Source
Plataformas IoT Open Source
 
2. Modelo ER
2. Modelo ER2. Modelo ER
2. Modelo ER
 
1. Modelo de Datos
1. Modelo de Datos1. Modelo de Datos
1. Modelo de Datos
 
6. Procesos de Cierre
6. Procesos de Cierre6. Procesos de Cierre
6. Procesos de Cierre
 
5. Procesos de Monitoreo y Control
5. Procesos de Monitoreo y Control5. Procesos de Monitoreo y Control
5. Procesos de Monitoreo y Control
 
4. Procesos de Ejecución
4. Procesos de Ejecución4. Procesos de Ejecución
4. Procesos de Ejecución
 
3. Procesos de Planificación (2)
3. Procesos de Planificación (2)3. Procesos de Planificación (2)
3. Procesos de Planificación (2)
 
3. Procesos de Planificación (1)
3. Procesos de Planificación (1)3. Procesos de Planificación (1)
3. Procesos de Planificación (1)
 
2. Procesos de Inicio
2. Procesos de Inicio2. Procesos de Inicio
2. Procesos de Inicio
 
1. Introducción y Marco Conceptual
1. Introducción y Marco Conceptual1. Introducción y Marco Conceptual
1. Introducción y Marco Conceptual
 
Educa innova
Educa innovaEduca innova
Educa innova
 

Último

TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...jlorentemartos
 
PLAN LECTOR 2024 integrado nivel inicial-miercoles 10.pptx
PLAN LECTOR 2024  integrado nivel inicial-miercoles 10.pptxPLAN LECTOR 2024  integrado nivel inicial-miercoles 10.pptx
PLAN LECTOR 2024 integrado nivel inicial-miercoles 10.pptxCamuchaCrdovaAlonso
 
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPCTRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPCCarlosEduardoSosa2
 
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfFeliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfMercedes Gonzalez
 
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfFICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfRaulGomez822561
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxlclcarmen
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primariaWilian24
 
Actividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docxActividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docxpaogar2178
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docxEliaHernndez7
 
Biografía de Charles Coulomb física .pdf
Biografía de Charles Coulomb física .pdfBiografía de Charles Coulomb física .pdf
Biografía de Charles Coulomb física .pdfGruberACaraballo
 
Concepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxConcepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxFernando Solis
 
La Evaluacion Formativa SM6 Ccesa007.pdf
La Evaluacion Formativa SM6  Ccesa007.pdfLa Evaluacion Formativa SM6  Ccesa007.pdf
La Evaluacion Formativa SM6 Ccesa007.pdfDemetrio Ccesa Rayme
 
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...JoseMartinMalpartida1
 
La Sostenibilidad Corporativa. Administración Ambiental
La Sostenibilidad Corporativa. Administración AmbientalLa Sostenibilidad Corporativa. Administración Ambiental
La Sostenibilidad Corporativa. Administración AmbientalJonathanCovena1
 
Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024IES Vicent Andres Estelles
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfapunteshistoriamarmo
 
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptxCONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptxroberthirigoinvasque
 

Último (20)

TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
 
Usos y desusos de la inteligencia artificial en revistas científicas
Usos y desusos de la inteligencia artificial en revistas científicasUsos y desusos de la inteligencia artificial en revistas científicas
Usos y desusos de la inteligencia artificial en revistas científicas
 
PLAN LECTOR 2024 integrado nivel inicial-miercoles 10.pptx
PLAN LECTOR 2024  integrado nivel inicial-miercoles 10.pptxPLAN LECTOR 2024  integrado nivel inicial-miercoles 10.pptx
PLAN LECTOR 2024 integrado nivel inicial-miercoles 10.pptx
 
Novena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan EudesNovena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan Eudes
 
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPCTRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
TRABAJO FINAL TOPOGRAFÍA COMPLETO DE LA UPC
 
Power Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptxPower Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptx
 
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfFeliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
 
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdfFICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
FICHA PROYECTO COIL- GLOBAL CLASSROOM.docx.pdf
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria
 
Actividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docxActividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docx
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
 
Biografía de Charles Coulomb física .pdf
Biografía de Charles Coulomb física .pdfBiografía de Charles Coulomb física .pdf
Biografía de Charles Coulomb física .pdf
 
Concepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxConcepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptx
 
La Evaluacion Formativa SM6 Ccesa007.pdf
La Evaluacion Formativa SM6  Ccesa007.pdfLa Evaluacion Formativa SM6  Ccesa007.pdf
La Evaluacion Formativa SM6 Ccesa007.pdf
 
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
 
La Sostenibilidad Corporativa. Administración Ambiental
La Sostenibilidad Corporativa. Administración AmbientalLa Sostenibilidad Corporativa. Administración Ambiental
La Sostenibilidad Corporativa. Administración Ambiental
 
Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdf
 
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptxCONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
 

Matemática y Data Science

  • 1. MATEMÁTICA Y DATA SCIENCE Preparado como parte de las Actividades por el LI Aniversario de la Carrera de Matemática M.Sc. Aldo Ramiro Valdez Alvarado Marzo de 2018
  • 2. La Revolución de los Datos Y llega el Big Data Data Science: Una definición… De la Minería de Datos al Machine Learning El Proceso de Data Science Herramientas más importantes Índice 1 2 3 4 5 6
  • 3. La Revolución de los Datos1
  • 4. El proyecto del Genoma Humano
  • 6. IoT
  • 7. Internet en 60 segundos
  • 8. En 2007 solo el 7% de la información estaba en medios analógicos (libros, revistas, fotografías en papel, etc.)
  • 9. En 2012 la información digital alcanzó a nivel mundial 2.837 exabytes (miles de millones de gigabytes). Puestos en DVDs, la torre sería de 400.000 Kms, más que la distancia de la Tierra a la Luna.
  • 10. Google procesa más de 24 Petabytes/día, información equivalente a varios miles de veces la biblioteca del congreso de USA
  • 11. Y llega el Big Data2
  • 12. En el 2001, el analista Doug Laney de META Group (ahora Gartner) utilizaba y definía el término Big Data como: “el conjunto de técnicas y tecnologías para el tratamiento de datos, en entornos de gran volumen, variedad de orígenes y en los que la velocidad de respuesta es crítica”.
  • 13. •Crecimiento exponencial. •Terabytes, petabyte, … Volumen •Frecuencia de generación. •Procesado en tiempo real. Velocidad •Diferentes formatos. •Diferentes estructuras. Variedad
  • 14. IBM introdujo la cuarta V
  • 15.
  • 17. • La ciencia de datos (Data Science) implica el uso de métodos para analizar cantidades masivas de datos y extraer el conocimiento que se contienen en estas. • La ciencia de datos representa la optimización de procesos y recursos. • La ciencia de datos produce información valiosa: conclusiones o predicciones procesables, basadas en datos, que usted puede usar para comprender y mejorar su negocio, sus inversiones, su salud e incluso su estilo de vida y su vida social. (Cielen, 2016)
  • 18.
  • 19. • La ciencia de datos (Data Science) es la ciencia computacional de la extracción de conocimientos significativos a partir de datos brutos y luego la comunicación efectiva de esos conocimientos para generar valor. (Pierson, 2017) • En un mundo dirigido por los datos, la ciencia de datos (Data Science) se puede definir como algo que los cientistas de datos hacen. (Haider, 2016)
  • 20. Un Científico de Datos (Data Scientist) es una persona con habilidades matemáticas, estadísticas, computacionales (que sabe programar) y de visualización de datos que lo llevan a encontrar los patrones que le servirán a la empresa o institución para capitalizar la información recogida. (Valdés, 2015) Data Scientist
  • 21.
  • 22. La ciencia de los datos se basa en gran medida en las habilidades matemáticas y estadísticas de un profesional, precisamente porque estas son las habilidades necesarias para comprender sus datos y su importancia. Estas habilidades pueden usarse para llevar a cabo modelos predictivos, modelos de decisiones y pruebas de hipótesis.
  • 23. La matemática usa métodos determinísticos para formar una descripción cuantitativa (o numérica) del mundo; la estadística es una ciencia que se deriva de las matemáticas, pero se centra en el uso de un enfoque estocástico (probabilidades) y métodos inferenciales para formar una descripción cuantitativa del mundo.
  • 24. Los científicos usan los métodos matemáticos para construir modelos de decisión, generar aproximaciones y hacer predicciones sobre el futuro.
  • 25.
  • 26.
  • 27. De la Minería de Datos al Machine Learning 4
  • 28. La minería de datos trata de resolver problemas mediante el análisis de datos, mismos que ya están presentes en las bases de datos. Minería de datos
  • 29. La minería de datos se define como el proceso de descubrir patrones en los datos. El proceso debe ser automático o semiautomático. Los patrones descubiertos deben ser significativos ya que conducen a alguna ventaja, generalmente una ventaja económica. Los datos están invariablemente presentes en cantidades sustanciales.
  • 30. La minería de datos trata de técnicas para encontrar y describir patrones estructurales en los datos. La mayoría de las técnicas que se tienen se han desarrollado dentro de un campo, conocido como aprendizaje automático (Machine Learning).
  • 32. El Aprendizaje Automático es un campo en la Inteligencia Artificial, donde las máquinas pueden "aprender" de sí mismas, sin ser explícitamente programadas por los seres humanos. Analizando datos pasados llamados "datos de entrenamiento", el modelo de Aprendizaje Automático forma patrones y usa estos patrones para aprender y hacer predicciones futuras.
  • 33. El aprendizaje automático o Machine Learning es un método científico que nos permite usar los ordenadores y otros dispositivos con capacidad computacional para que aprendan a extraer los patrones y relaciones que hay en nuestros datos por sí solos. Esos patrones se pueden usar luego para predecir comportamientos y en la toma de decisiones.
  • 34. Aprendizaje Supervisado • Modelos Predictivos. • La máquina aprende explícitamente. • Predice el futuro a partir de datos históricos. • Resuelve problemas de clasificación y regresión. Aprendizaje No Supervisado • Modelos Descriptivos. • La máquina entiende los datos. • La evaluación es cualitativa o indirecta. • No realiza predicciones, encuentra algo específico. Aprendizaje Reforzado • Un enfoque de la IA • Aprendizaje basado en los hallazgos. • La máquina aprende a como actuar en un determinado entorno. • Maximiza los hallazgos.
  • 35. El Proceso de Data Science5
  • 36. 1. Establecer el objetivo de la investigación 2. Recuperar datos 3. Preparar datos 4. Explorar datos 5. Modelar datos 6. Presentar y automatizar
  • 37. • Definir el objetivo de la investigación. • Crear el cronograma del proyecto. 1. Establecer Objetivo • Para los datos internes, se determina quién es el dueño y se los recupera. • De igual forma para los datos externos. 2. Recuperar Datos • Limpiar los datos, de posibles errores en la entrada de datos, de valores físicamente imposibles, valores faltantes… 3. Preparar Datos
  • 38. • Transformar los datos, agregando o extrapolando datos, reduciendo el número de variables. • Combinar los datos, mezclando conjuntos de datos, creando vistas… 3. Preparar Datos • A través de simples gráficas, gráficas combinadas, o de otras técnicas que no sean gráficas. 4. Explorar Datos
  • 39. • Seleccionar las variables y el modelo. • Ejecutar el modelo. • Realizar el diagnóstico y la comparación. 5. Modelar Datos • Presentar los datos. • Automatizar el análisis de datos. 6. Presentar y Automatizar
  • 41.
  • 42.
  • 43.
  • 44.
  • 45.
  • 46.
  • 47.
  • 48. Aldo Ramiro Valdez Alvarado Licenciado en Informática Master en Dirección Estrategica en Tecnologías de la Información Máster en Business Intelligence y Big Data Docente Titular de Pregrado en la UMSA Docente de Postgrado en la UMSA y otras Universidades Ex - Coordinador del Postgrado en Informática UMSA Conferencista Nacional e Internacional http://aldovaldezalvarado.blogspot.com/ https://www.linkedin.com/in/msc-aldo-valdez-alvarado-17464820 aldo_valdez@hotmail.com