Big Data en el mundo del Machine
Learning
ESCUELA DE TECNOLOGÍA DE LA INFORMACIÓN
En breve comenzamos ...
Bienvenidos a las Tardes TIC
2
CONSEJOS PARA INGRESAR A BLACKBOARD
1
6
5
3
4
2
Silenciar nuestros micrófonos
para una mejor escucha entre
todos y apagar nuestras
cámaras
Escoger un lugar adecuado
para la videoconferencia
Si la conexión es por tu celular
será necesario descarga la app,
si lo haces desde la
computadora sólo deberás
ingresar con el enlace
Revisa que tu conexión a
internet sea estable
Sugerimos el uso de
audífonos para una mejor
escucha y transmisión de
nuestra voz
El link estará aperturado 30
minutos antes para probar la
conectividad y sus funciones
Para cualquier consulta estamos aquí para ayudarte.
Comunícate con Isabel Lindo / correo: isabel.lindo@cibertec.pe
4
Agenda
1. Bienvenida al ponente y participantes.
2. Presentación al Ponente
3. Desarrollo de la ponencia
4. Preguntas
5. Palabras de cierre.
5
Nicolás Nakasone
6
Big Data en el mundo del
Machine Learning
7
Definiciones de Big Data
Wikipedia hace referencia a una cantidad de datos tal que supera la capacidad del
software convencional para ser capturados, administrados y procesados en un
tiempo razonable.
IBM: toda aquella información que no puede ser procesada o
analizada utilizando procesos o herramientas tradicionales.
Gartner: son activos de información de gran volumen, alta velocidad y / o
gran variedad que demandan formas rentables e innovadoras de
procesamiento de la información que permiten un mejor conocimiento,
toma de decisiones y automatización de procesos.
Google: serían demasiado caros de almacenar, gestionar y analizar utilizando sistemas
de bases de datos tradicionales, son ineficientes debido a su inflexibilidad para
almacenar datos no estructurados (imágenes, texto y video), acomodar datos de "alta
velocidad" (en tiempo real) o escalar a soporte muy grande (petabytes).
8
Las V’s del Big Data
9
Volumen
• Aumento del Volumen de los datos disponibles para el análisis.
• Las empresas que han adoptado Big Data gestionan desde unos pocos
Terabytes (103 Gb) hasta Petabytes (106Gb)
• Muchas de ellas ya superan los 10 Terabytes
- En tres años lo habitual será >= 100 Terabytes
- No es lo mismo trabajar con 1 Terabyte de texto con 1 Gigabyte imágenes
médicas.
10
Velocidad
• Incremento de la velocidad a la que se genera y se
distribuye los datos en las fuentes.
 Es una de las razones del incremento del volumen de
datos
• Streaming: datos que se generan y distribuyen en
tiempo real.
 Generados por sensores, servidores web,
redes sociales, etc.
• También hace referencia a la necesidad para extraer
conocimiento de los datos en el momento oportuno.
 Ejemplo: Datos de tipo financiero.
11
Variedad
•La variedad se refiere al importante
aumento en la heterogeneidad de las
fuentes de datos debido a diversos
factores como:
• Incremento en el número de fuentes
disponibles.
• Fuentes con distintos nivel de
estructura.
• Diversidad de formatos de distribución.
12
Veracidad
• Aumento de la incertidumbre respecto a la veracidad o calidad de los
datos disponibles
• Incertidumbre datos => Incertidumbre conocimiento extraído.
• Es uno de los retos principales del nuevo contexto de datos.
 El uso de datos incorrectos supone grandes pérdidas.
13
Valor
• El valor es la medida de la utilidad de los datos seleccionados para
nuestros objetivos finales.
• Determinar dicha utilidad a priori puede ser realmente complicado.
•
14
El impacto del Big Data en los negocios
15
Ejemplo de Big Data - Netflix
Utiliza la información de sus suscriptores para
predecir que contenidos tienen más
probabilidades de triunfar.
• ¿Qué búsquedas realizan?
• ¿Qué dispositivos usan?
• ¿Cuál es su día preferido?
• ¿Cuánto tiempo emplean en el servicio y en
cada uno de los contenidos?
• Si ven los capítulos enteros o parcialmente,
incluso, ¿qué fragmentos vuelven a visionar?
• ¿En qué momento abandonan el visionado y si
lo recuperan o abandonan?
• Las valoraciones de los consumidores.
• ¿Qué preferencias tienen en común con sus
amigos o con la audiencia de su misma zona
geográfica?
• La información de sus perfiles en redes
sociales.
16
¿ Que es Machine Learning?
• Es una disciplina científica del ámbito de la Inteligencia Artificial que crea
sistemas que aprenden automáticamente
17
• Aprendizaje Supervisado y No Supervisado
• Supervisado: se entrena al algoritmo otorgándole las preguntas,
denominadas características, y las respuestas, denominadas
etiquetas.
• No Supervisado: solo se le otorgan las características, sin
proporcionarle al algoritmo ninguna etiqueta
18
¿Qué es la Inteligencia Artificial?
• Es la simulación de procesos de inteligencia humana por parte de máquinas,
especialmente sistemas informáticos..
19
Actualidad en la Inteligencia Artificial
• Automatización
• Aprendizaje Automático
• Visión por computadoras
• Procesamiento de Lenguaje Natural
• Reconocimiento de Patrones
• Robótica
20
Demo
www.cibertec.edu.pe
SEDE MIRAFLORES
Calle Diez Canseco Cdra 2 / Pasaje Tello
Miraflores – Lima
Teléfono: 633-5555
SEDE INDEPENDENCIA
Av. Carlos Izaguirre 233
Independencia – Lima
Teléfono: 633-5555
SEDE BREÑA
Av. Brasil 714 – 792
(CC La Rambla – Piso 3)
Breña – Lima
Teléfono: 633-5555
SEDE TRUJILLO
Calle Borgoño 361
Trujillo
Teléfono: (044) 60-2000
SEDE SAN JUAN DE LURIGANCHO
Av. Próceres de la Independencia 3023-3043
San Juan de Lurigancho – Lima
Teléfono: 633-5555
SEDE LIMA CENTRO
Av. Uruguay 514
Cercado – Lima
Teléfono: 419-2900
SEDE BELLAVISTA
Av. Mariscal Oscar R. Benavides 3866 – 4070
(CC Mall Aventura Plaza)
Bellavista – Callao
Teléfono: 633-5555
SEDE AREQUIPA
Av. Porongoche 500
(CC Mall Aventura Plaza)
Paucarpata - Arequipa
Teléfono: (054) 60-3535
GRACIAS

Big Data en el mundo del Machine Learning

  • 1.
    Big Data enel mundo del Machine Learning ESCUELA DE TECNOLOGÍA DE LA INFORMACIÓN En breve comenzamos ... Bienvenidos a las Tardes TIC
  • 2.
  • 3.
    CONSEJOS PARA INGRESARA BLACKBOARD 1 6 5 3 4 2 Silenciar nuestros micrófonos para una mejor escucha entre todos y apagar nuestras cámaras Escoger un lugar adecuado para la videoconferencia Si la conexión es por tu celular será necesario descarga la app, si lo haces desde la computadora sólo deberás ingresar con el enlace Revisa que tu conexión a internet sea estable Sugerimos el uso de audífonos para una mejor escucha y transmisión de nuestra voz El link estará aperturado 30 minutos antes para probar la conectividad y sus funciones Para cualquier consulta estamos aquí para ayudarte. Comunícate con Isabel Lindo / correo: isabel.lindo@cibertec.pe
  • 4.
    4 Agenda 1. Bienvenida alponente y participantes. 2. Presentación al Ponente 3. Desarrollo de la ponencia 4. Preguntas 5. Palabras de cierre.
  • 5.
  • 6.
    6 Big Data enel mundo del Machine Learning
  • 7.
    7 Definiciones de BigData Wikipedia hace referencia a una cantidad de datos tal que supera la capacidad del software convencional para ser capturados, administrados y procesados en un tiempo razonable. IBM: toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales. Gartner: son activos de información de gran volumen, alta velocidad y / o gran variedad que demandan formas rentables e innovadoras de procesamiento de la información que permiten un mejor conocimiento, toma de decisiones y automatización de procesos. Google: serían demasiado caros de almacenar, gestionar y analizar utilizando sistemas de bases de datos tradicionales, son ineficientes debido a su inflexibilidad para almacenar datos no estructurados (imágenes, texto y video), acomodar datos de "alta velocidad" (en tiempo real) o escalar a soporte muy grande (petabytes).
  • 8.
  • 9.
    9 Volumen • Aumento delVolumen de los datos disponibles para el análisis. • Las empresas que han adoptado Big Data gestionan desde unos pocos Terabytes (103 Gb) hasta Petabytes (106Gb) • Muchas de ellas ya superan los 10 Terabytes - En tres años lo habitual será >= 100 Terabytes - No es lo mismo trabajar con 1 Terabyte de texto con 1 Gigabyte imágenes médicas.
  • 10.
    10 Velocidad • Incremento dela velocidad a la que se genera y se distribuye los datos en las fuentes.  Es una de las razones del incremento del volumen de datos • Streaming: datos que se generan y distribuyen en tiempo real.  Generados por sensores, servidores web, redes sociales, etc. • También hace referencia a la necesidad para extraer conocimiento de los datos en el momento oportuno.  Ejemplo: Datos de tipo financiero.
  • 11.
    11 Variedad •La variedad serefiere al importante aumento en la heterogeneidad de las fuentes de datos debido a diversos factores como: • Incremento en el número de fuentes disponibles. • Fuentes con distintos nivel de estructura. • Diversidad de formatos de distribución.
  • 12.
    12 Veracidad • Aumento dela incertidumbre respecto a la veracidad o calidad de los datos disponibles • Incertidumbre datos => Incertidumbre conocimiento extraído. • Es uno de los retos principales del nuevo contexto de datos.  El uso de datos incorrectos supone grandes pérdidas.
  • 13.
    13 Valor • El valores la medida de la utilidad de los datos seleccionados para nuestros objetivos finales. • Determinar dicha utilidad a priori puede ser realmente complicado. •
  • 14.
    14 El impacto delBig Data en los negocios
  • 15.
    15 Ejemplo de BigData - Netflix Utiliza la información de sus suscriptores para predecir que contenidos tienen más probabilidades de triunfar. • ¿Qué búsquedas realizan? • ¿Qué dispositivos usan? • ¿Cuál es su día preferido? • ¿Cuánto tiempo emplean en el servicio y en cada uno de los contenidos? • Si ven los capítulos enteros o parcialmente, incluso, ¿qué fragmentos vuelven a visionar? • ¿En qué momento abandonan el visionado y si lo recuperan o abandonan? • Las valoraciones de los consumidores. • ¿Qué preferencias tienen en común con sus amigos o con la audiencia de su misma zona geográfica? • La información de sus perfiles en redes sociales.
  • 16.
    16 ¿ Que esMachine Learning? • Es una disciplina científica del ámbito de la Inteligencia Artificial que crea sistemas que aprenden automáticamente
  • 17.
    17 • Aprendizaje Supervisadoy No Supervisado • Supervisado: se entrena al algoritmo otorgándole las preguntas, denominadas características, y las respuestas, denominadas etiquetas. • No Supervisado: solo se le otorgan las características, sin proporcionarle al algoritmo ninguna etiqueta
  • 18.
    18 ¿Qué es laInteligencia Artificial? • Es la simulación de procesos de inteligencia humana por parte de máquinas, especialmente sistemas informáticos..
  • 19.
    19 Actualidad en laInteligencia Artificial • Automatización • Aprendizaje Automático • Visión por computadoras • Procesamiento de Lenguaje Natural • Reconocimiento de Patrones • Robótica
  • 20.
  • 21.
    www.cibertec.edu.pe SEDE MIRAFLORES Calle DiezCanseco Cdra 2 / Pasaje Tello Miraflores – Lima Teléfono: 633-5555 SEDE INDEPENDENCIA Av. Carlos Izaguirre 233 Independencia – Lima Teléfono: 633-5555 SEDE BREÑA Av. Brasil 714 – 792 (CC La Rambla – Piso 3) Breña – Lima Teléfono: 633-5555 SEDE TRUJILLO Calle Borgoño 361 Trujillo Teléfono: (044) 60-2000 SEDE SAN JUAN DE LURIGANCHO Av. Próceres de la Independencia 3023-3043 San Juan de Lurigancho – Lima Teléfono: 633-5555 SEDE LIMA CENTRO Av. Uruguay 514 Cercado – Lima Teléfono: 419-2900 SEDE BELLAVISTA Av. Mariscal Oscar R. Benavides 3866 – 4070 (CC Mall Aventura Plaza) Bellavista – Callao Teléfono: 633-5555 SEDE AREQUIPA Av. Porongoche 500 (CC Mall Aventura Plaza) Paucarpata - Arequipa Teléfono: (054) 60-3535 GRACIAS

Notas del editor

  • #8 En términos en bytes: Megabyte = 106 = 1,000,000 Gigabyte = 109 = 1,000,000,000 Terabyte = 1012 = 1,000,000,000,000 Petabyte = 1015 = 1,000,000,000,000,000 Exabyte = 1018 = 1,000,000,000,000,000,000 Zettabyte = 1021 = 1,000,000,000,000,000,000,000 Yottabyte = 1021 = 1,000,000,000,000,000,000,000 Brontobyte = 1021 = 1,000,000,000,000,000,000,000
  • #11 Telescopio SKA, 10 Petabytes / hora Twitter, 100.000 tweets / minuto Bolsas de Valores, requiere el tratamiento de la información.