CIENCIA DE
DATOS 2023 -
02
CLASE 01 - INTRODUCCIÓN
Profesores:
Agustín Olivares Soto
Felipe Peña Graf
OBJETIVOS DE APRENDIZAJE
•Identificar los conceptos fundamentales
de Data Science y su relación con otras
disciplinas como matemática/estadística y
aprendizaje automático
AGENDA
▫ Historia de la IA
▫ Conceptos básicos IA
▫ Aprendizaje automático
▫ ¿Qué es la ciencia de datos (data science)?
▫ Proyectos data science
▫ Gestión de proyectos
▫ Ciclos de vida
▫ Administración de proyectos
4
INTRODUCCIÓ
N
“A menudo las empresas
sudamericanas tienen
dificultades para agregar valor
de forma sustancial. La IA
ofrece una oportunidad para
cambiar eso.”
Paulo Henrique Souza
Director Ejecutivo, UBIVIS (Brasil)
“Nuestra
inteligencia es
lo que nos hace
humanos, y la
IA es una
extension de
esa cualidad”
Yan LeCun
Chief AI Scientist at Facebook
AUTOMATIZACIÓN VS INTELIGENCIA
ARTIFICIAL
Automatización
Agente (software, hardware) que
sigue un conjunto de reglas y
pasos pre programados
Inteligencia Artificial
Agente (software, hardware) que es
capaz de realizar tareas complejas,
tomar decisiones y realizar acciones
para las que no ha sido programado.
HISTORIA
HISTORIA
2017
• Google researchers developed the concept of transformers in the seminal paper "Attention Is All You Need"
• Stephen Hawking: "Unless we learn how to prepare for, and avoid, the potential risks, AI could be the worst event in the history of our civilization."
2018
• Developed by IBM, Airbus and the German Aerospace Center DLR, Cimon was the first robot sent into space to assist astronauts.
• OpenAI released GPT (Generative Pre-trained Transformer), paving the way for subsequent LLMs.
2019
• Microsoft launched the Turing Natural Language Generation generative language model with 17 billion parameters.
• Google AI and Langone Medical Center's deep learning algorithm outperformed radiologists in detecting potential lung cancers
2020
• The University of Oxford developed an AI test called Curial to rapidly identify COVID-19 in emergency room patients.
• DeepMind's AlphaFold system won the Critical Assessment of Protein Structure Prediction protein-folding contest.
2021
• OpenAI introduced the Dall-E multimodal AI system that can generate images from text prompts.
2022
• OpenAI libera ChatGPT para tener una interfaz de chat para su modelo GPT-3.5 LLM
2023
• OpenAI anuncia GPT-4 que puede recibir texto o imágenes como prompts
• Musk, Wozniak y miles más firman petición para una pausa de seis meses en entrenar Ias más poderosas que GPT-4
IMPORTANCIA DE LA IA
Gartner Hype Cycle for Emerging Technologies, 2021
INTELIGENCIA ARTIFICIAL
Inteligencia Artificial
Fuerte
▪Mente
▪Estados mentales
Inteligencia Artificial
Débil
▪Actuar en forma
inteligente
ACTUAR RACIONALMENTE
Resolución de problemas y búsqueda
Representación del conocimiento y sistemas
basados en el conocimiento
Aprendizaje automático
Inteligencia artificial distribuida
RESOLUCIÓN DE PROBLEMAS Y
BÚSQUEDA
REPRESENTACIÓN DE CONOCIMIENTO Y
SISTEMAS BASADOS EN CONOCIMIENTO
APRENDIZAJE AUTOMÁTICO
https://gravitar.biz/bi/machine-learning/
IA DISTRIBUIDA
TÉRMINOS Y LÍMITES DE IA
https://www.machinecurve.com/index.php/2017/09/30/the-differences-between-artificial-intelligence-machine-learning-more/
18
APRENDIZAJE
AUTOMÁTICO
Machine Learning
DATOS, INFORMACIÓN Y
CONOCIMIENTO
Datos: Solo un valor sin significado. Proviene de fuentes internas o externas de la
organización.
Información: Contextualizado, categorizado, calculado, corregidos y condensados.
Conocimiento: Comparación con otros elementos, predicción de consecuencias,
búsqueda de conexiones, conversa con otros portadores de conocimiento.
APRENDIZAJE SUPERVISADO
https://machinelearningenespanol.com/2021/07/21/que-es-machine-learning-como-funciona/
Aprendizaje
Supervisado
APRENDIZAJE NO SUPERVISADO
https://machinelearningenespanol.com/2021/07/21/que-es-machine-learning-como-funciona/
REGRESIÓN VS CLASIFICACIÓN
23
TECNOLOGÍAS
Y
APLICACIONES
TECNOLOGÍAS Y APLICACIONES
24
Deep
Learning
TECNOLOGÍAS Y APLICACIONES
25
Deep
Learning
TECNOLOGÍAS Y APLICACIONES
26
Procesamiento de Lenguaje Natural
TECNOLOGÍAS Y APLICACIONES
27
Big Data & Cloud Computing
TECNOLOGÍAS Y APLICACIONES
28
Visualizació
n
TECNOLOGÍAS Y APLICACIONES
29
Visualizació
n
APLICACIONES
30
https://www.iberdrola.com/innovacion/que-es-inteligencia-artificial
APLICACIONES
32
CIENCIA DE
DATOS
DEFINICIÓN
Data Science es la ciencia centrada en el
estudio de los datos. Se encarga de extraer
información de grandes cantidades de
datos. Data Science combina la estadística,
las matemáticas y la computación para
interpretar datos. El objetivo es tomar
decisiones.
DATA SCIENCE Y BIG DATA
▪ Cuando hablamos de Big Data nos referimos a conjuntos de datos de
gran volumen. Esto dificulta su almacenamiento, gestión, procesamiento
y análisis mediante tecnologías y herramientas convencionales.
▪ Big Data se encarga de resolver los problemas de gestión y
almacenamiento de datos. Esto permite dibujar patrones y obtener un
visión más completa de los clientes.
▪ Data Science se centra en las herramientas que transforman los datos en
información de valor.
35
PROYECTOS
DE CIENCIA
DE DATOS
CASOS DE USO
Caso de Uso: Marketing
37
Caso de Uso: Marketing
38
Caso de Uso: Chile
39
Zippedi
https://www.ing.uc.cl/boletines/desarrollan-primer-robot-chileno-
inteligencia-artificial-trabajar-supermercados/
Nuevos Retos
40
Nuevos Retos
41
NUEVOS RETOS
42
CONSIDERACIONES ADICIONALES
43
44
GESTIÓN DE
PROYECTOS
ENFOQUE MULTIDISCIPLINARIO
Equipos de trabajo con expertos en ingeniería de datos,
método científico, matemáticas, estadística, computación
avanzada, visualización y expertos en los distintos
ámbitos de especialidad.
45
CICLO DE VIDA DE UN PROYECTO MACHINE LEARNING
46
ROLES Y SU PARTICIPACIÓN EN UN PROYECTO DE DATA
SCIENCE
47
HERRAMIENTAS
48
49
CICLOS DE
VIDA
DATA SCIENCE
OTROS PROCESOS PARA DATA
SCIENCE
OTROS PROCESOS PARA DATA
SCIENCE
KDD (DATA MINING)
SEMMA
CRISP-DM (Cross Industry Standard Process for
Data Mining)
Fase I. Definición de necesidades del
cliente (comprensión del negocio)
Fase II. Estudio y compresión de los
datos.
Fase III. Análisis de los datos y selección
de características.
Fase IV. Modelado. Se aplican las
técnicas de modelado que sean
pertinentes al problema.
Fase V. Evaluación (Obtención de
resultados)
Fase VI. Despliegue (Puesta en
(Chapman et al., 2000).
CRISP-DM
EN GENERAL
57
ADMINSITRAC
IÓN DE
PROYECTOS
Metodologías ágiles
SCRUM
¿QUÉ ES?
▪Scrum es un framework
(estructura de trabajo) ágil
para la realización de
proyectos complejos.
¿QUÉ LO HACE UN MÉTODO
ÁGIL?
▪No es un proceso o una
técnica, es un amplio marco
de trabajo, dentro del cual se
pueden emplear diversas
técnicas y procesos.
PILARES FUNDAMENTALES DE SCRUM
Cada aspecto del
proceso debe
definirse por un
estándar común a
todos los integrantes
del equipo
Cada aspecto del proceso debe definirse
por un estándar común a todos los
integrantes del equipo
La inspección constante, garantiza la
capacidad de respuesta y la subsiguiente
adaptabilidad del framework
PILARES FUNDAMENTALES DE SCRUM
ROLES DE SCRUM
Son las personas que tienen
interés directo en el proyecto,
ya que les producirá el
beneficio que justifica su
desarrollo.
El equipo de desarrollo consiste
en los profesionales que
desempeñan el trabajo de
entregar un Incremento del
producto “Terminado”.
Responsable de maximizar el
valor del producto y del trabajo
en Equipo.
Facilitador y puente entre el
Product Owner y demás
integrantes del equipo
ARTEFACTOS DE SCRUM
Los artefactos de SCRUM son los que aportan la mayor
transparencia en la información clase del proceso.
PRODUCT BACKLOG
EVENTOS DE SCRUM
PRODUCT ROADMAP
Herramientas de planificación
Objetivos generales y específicos
Cumplimiento a corto, mediano y
largo plazo
Hitos y milestones
Muestran nuestro estado actual y lo
que vamos a hacer a para llegar a
nuestro estado futuro
PRODUCT ROADMAP
Debe hacer y responder 3
importantes preguntas:
▪ ¿A dónde vamos?
▪ ¿Cómo vamos a llegar allí?
▪ ¿Por qué vamos allí?
KANBAN
¿PREGUN
TAS?
CIENCIA DE
DATOS 2023 -
02
CLASE 01 - INTRODUCCIÓN
REFERENCIAS
• Material adaptado y basado en material de Dr. Juan Bekios

Clase 01 - Introducción a la ciencia de datos

Notas del editor

  • #8 1950 Alan Turing propone el Test de Turing. Viene a decir que si una máquina es capaz de engañar a una persona y hacerle creer que también lo es entonces es inteligente. Es aún el estándar en cuanto a pruebas de inteligencia artificial 1956 John McCarthy inventa la expresión inteligencia artificial y la define como «la ciencia e ingeniería de construir máquinas inteligentes» 1961 Entra en servicio Unimate, el primer robot industrial, que sustituye a humanos en una de las plantas de ensamblado de General Motors. 1964 Joseph Weizenbaum escribe Eliza, un chatbot que mantiene conversaciones con humanos. 1966 Entra en funcionamiento Shakey, la «primera persona electrónica», un robot móvil que razona acerca de sus propias acciones. 1997 Deep Blue, un ordenador programado para jugar al ajedrez, derrota al campeón del mundo Garry Kasparov. 1998 Cynthia Breazeal presenta KISmet, un robot que intenta detectar y responder a las emociones de las personas que interactúan con él. 1999 Sony lanza el perro robot Aibo, la primera mascota robótica con habilidades y personalidad que se van desarrollando con el tiempo. 2002 iRobot presenta Roomba, la primera aspiradora robot producida en masa capaz de aprender a navegar por sí misma por los espacios que ha de limpiar. 2011 Apple integra Siri, un asistente virtual inteligente con interfaz de voz, en el iPhone 4S. 2011 La inteligencia artificial Watson de IBM consigue ganar el juego de preguntas Jeopardy. 2014 El chatbot Eugene Goostman consigue, según sus creadores, pasar el test de Turing, aunque es una afirmación más que discutida. 2014 Amazon lanza Alexa, un asistente virtual inteligente con interfaz de voz capaz de comprar cosas. A veces sin mucho control por parte de quienes la usan. 2016 El chatbot Tay de Microsoft pierde los papeles y se pone a hacer comentarios incendiarios y racistas en redes sociales. 2017 La inteligencia artificial AlphaGo de Google gana al Go al campeón del mundo Lee Sedol. Y ojo que AlphaGo Master le da sopas con ondas a AlphaGo
  • #9 2017 Stanford researchers published work on diffusion models in the paper "Deep Unsupervised Learning Using Nonequilibrium Thermodynamics." The technique provides a way to reverse-engineer the process of adding noise to a final image. Google researchers developed the concept of transformers in the seminal paper "Attention Is All You Need," inspiring subsequent research into tools that could automatically parse unlabeled text into large language models (LLMs). British physicist Stephen Hawking warned, "Unless we learn how to prepare for, and avoid, the potential risks, AI could be the worst event in the history of our civilization." 2018 Developed by IBM, Airbus and the German Aerospace Center DLR, Cimon was the first robot sent into space to assist astronauts. OpenAI released GPT (Generative Pre-trained Transformer), paving the way for subsequent LLMs. Groove X unveiled a home mini-robot called Lovot that could sense and affect mood changes in humans. 2019 Microsoft launched the Turing Natural Language Generation generative language model with 17 billion parameters. Google AI and Langone Medical Center's deep learning algorithm outperformed radiologists in detecting potential lung cancers. 2020 The University of Oxford developed an AI test called Curial to rapidly identify COVID-19 in emergency room patients. Open AI released the GPT-3 LLM consisting of 175 billion parameters to generate humanlike text models. Nvidia announced the beta version of its Omniverse platform to create 3D models in the physical world. DeepMind's AlphaFold system won the Critical Assessment of Protein Structure Prediction protein-folding contest. 2021 OpenAI introduced the Dall-E multimodal AI system that can generate images from text prompts. The University of California, San Diego, created a four-legged soft robot that functioned on pressurized air instead of electronics. 2022 Google software engineer Blake Lemoine was fired for revealing secrets of Lamda and claiming it was sentient. DeepMind unveiled AlphaTensor "for discovering novel, efficient and provably correct algorithms." Intel claimed its FakeCatcher real-time deepfake detector was 96% accurate. OpenAI released ChatGPT in November to provide a chat-based interface to its GPT-3.5 LLM. 2023 OpenAI announced the GPT-4 multimodal LLM that receives both text and image prompts. Elon Musk, Steve Wozniak and thousands more signatories urged a six-month pause on training "AI systems more powerful than GPT-4."
  • #19  La habitación china es un experimento mental de este tipo, que originalmente fue propuesto por el filósofo John Searle y más tarde popularizado por el físico y matemático Roger Penrose. El término 'insight', en psicología, se refiere a la percepción de una realidad o lo que siente un individuo. https://www.neoteo.com/la-habitacion-china-y-la-inteligencia-artificial/
  • #46 https://www.aprendemachinelearning.com/perfiles-roles-proyectos-ia-ml-data-science/
  • #47 https://www.aprendemachinelearning.com/perfiles-roles-proyectos-ia-ml-data-science/
  • #52 Knowledge discovery in databases