Sesión 01
Fundamentos del Big Data
Al finalizar la sesión, el estudiante
conoce cuales son los fundamentos
esenciales del big data y su
aplicación en las empresas, de
manera clara y precisa.
Logro de la sesión 01
Interés / inicio
DIALOGUEMOS
 ¿Cuántas personas, en tu casa, suelen estar conectadas a internet
con frecuencia?
 Con relación a tu experiencia personal en las redes sociales
digitales:
 ¿Cuántos veces, en promedio, reaccionas cada día?
 ¿Cuántos veces, en promedio, publicas cada día (fotos, textos,
vídeos)?
 ¿Cuántos veces, en promedio, comentas publicaciones de otro
cada día?
Interés / inicio
AHORA COMPAREMOS
Raconteur, contenido para
responsables de toma de
decisiones empresariales
https://www.raconteur.net/
infographics/a-day-in-
data/
Internet en un minuto:
Interés / inicio
¿Y EN QUÉ PODEMOS USAR ESTOS DATOS?
 En salud y sanidad
 En educación
 En seguridad
 En política
 En deportes
 En marketing
 …
Fundamentos del
Big Data
Descubrimiento / desarrollo
Big data es un término que
hace referencia a una
cantidad de datos de
orígenes muy diversos, tal
que supera la capacidad del
software convencional para
ser capturados,
administrados y procesados
para extraer conocimiento,
Big Data
Tratamiento de grandes cantidades
de información, ordenada y procesada para
contribuir con la mejora de la automatización y
la toma de decisiones a partir de predicciones
Las 5 V del Big Data
Valor
Veracidad
Variedad
Velocidad
Volumen
Volumen
 Acumulación de datos a gran escala (local,
nacional, regional y mundial)
 Los grandes retos del volumen de datos son
Recopilación
Almacenamiento
Gestión
 Demandan soluciones de hardware y software
mucho más exigente y sólidas que las
convencionales
Velocidad
 La información se produce a cada momento
 Por lo mismo, tiende a ser obsoleta en el
mediano plazo
 Por lo tanto, para que adquiera mayor utilidad
debe ser procesada lo más rápido posible
 Para ello debe recurrirse a la automatización de
los procesos de gestión de datos
Variedad
 La información
Proviene de múltiples fuentes (compras, mensajes,
ubicaciones geográficas, etc.)
Se genera de múltiples modos (números, texto en
varios idiomas, sonidos e imágenes en diferentes
formatos)
 El cruce de datos variados permite efectuar
predicciones útiles para tomar decisiones
 Esto se relaciona, en el entorno digital, con el
diseño de algoritmos
Veracidad
 Existen datos que son más o menos fiables (es
decir que otorgan confianza y seguridad)
Por ejemplo, no es lo mismo conocer la talla de una
persona que su opinión sobre determinado tema
 Sin embargo, sean más o menos fiables, los
datos siguen siendo importantes para ser
usados en la predictibilidad
 La diferencia es que cada tipo de datos debe
procesarse de manera distinta
Valor
 Se relaciona con la utilidad real que se puedan
tener los datos
 Al ser masivos, cada dato implica un alto costo
al ser recogido, almacenado y gestionado
 Por ello se debe determinar
Cuáles son los datos necesarios
Cómo se relacionan esos datos (por oposición, por
complementariedad, etc.)
Cuán importantes son a nivel de costo beneficio en
función a objetivos previamente determinados
Pirámide de la valorización de datos
Conocimiento
Información
Datos
Tipos de datos
Estructurados Semiestructurados No estructurados
Datos estructurados
 Cuentan con un formato específico de
almacenamiento
 Pueden ser proporcionados por personas (por
ejemplo DNI, edad, reacciones en redes
sociales digitales, etc.) o por máquinas
(ubicación por GPS, visitas en internet, etc.)
 Son los más sencillos y rápidos de ordenar
por los software de procesamiento
Datos semiestructurados
 Tienen algunas características fijas y otras no
definidas
 Un ejemplo son las fotografías, cuyos datos
definidos son, por ejemplo, el tamaño y el
formato, y los no definidos son las etiquetas,
las personas u objetos fotografiados, etc.
 La tendencia es buscar estructurarlos en lo
posible, a partir, por ejemplo, de software de
reconocimiento facial
Datos no estructurados
 Se trata de datos que no tienen ninguna
estructura pre definida
 Por ejemplo los correos electrónicos, las
publicaciones escritas o comentarios en redes
sociales digitales, etc.
 Su procesamiento y búsqueda de
estructuración, en estos casos, se suele dar
mediante algoritmos de identificación, por
ejemplo, de combinaciones de palabras
Del Big Data al Small Data
Big data
Small data
Del Big data al Small data
 Para Martin Lindstrom, el Small Data es la evolución
natural del Big Data
 De lo que se trata es de prestar atención a detalles
específicos que complementen las proyecciones
obtenidas de forma masiva
 El enfoque, en ambos casos, está en la valorización de los
datos (es decir, el conocimiento útil que pueda lograrse al
cruzar ambos enfoques)
Diferencias entre Big Data y Small Data
Big Data Small Data
Busca patrones de comportamiento a partir
de algoritmos.
Busca comprender comportamientos
específicos.
Su principal valor son los datos relacionados
en gran volumen durante un extenso periodo
de tiempo (extensión).
Su principal valor es la concentración en
pocos datos en momentos específicos
(profundidad).
Para que los datos se procesen de forma
rápida se requiere de inversión en hardware y
software, además de especialización en
ingeniería de sistemas.
Los datos son más fáciles, rápidos y
económicos de procesar, pues se pueden
recoger de forma directa y analizar en hojas
de cálculo.
Se trata de un enfoque relativamente nuevo
(su desarrollo principal se da a partir del siglo
XXI, con el auge del internet de las cosas).
Se utilizaba, sin usar ese nombre, desde
hace más tiempo (a partir de encuestas,
entrevistas, observaciones, etc.).
Big Data
• https://sg-branding.com/2019/04/socrates-
aumento-ventas-lego-big-data/
Small Data
• https://www.santander.com.ar/banco/online
/pymes-advance/formacion-
empresarial/pildoras-de-
conocimiento/estrategia-de-negocios/lego-
en-la-era-del-small-data
Ejemplo de enfoques de Big Data y Small
Data en Lego
La diferencia
no está en la TECNOLOGÍA
si no en saber cómo UTILIZARLA
Actividad:
Evaluar en grupos
software de
procesamiento de datos
en internet
El sofware se asignará
aleatoriamente a cada
grupo
Experiencia / desarrollo
Software a evaluar
1. Answerthepublic
2. ArcGIS Online
3. BuzzSumo
4. Pingdom tools
5. Semrush
6. Similarweb
7. Tableau Public
8. Ubersuggest
9. Uptime robot
Lista de cotejo
 Nombres de los integrantes
 Nombre del software
 Tipo de software
 Por disponibilidad (gratuito totalmente, gratuito parcialmente, de pago)
 Por funcionalidad (funciona en línea libremente, funciona en línea
previo registro, se debe descargar e instalar)
 Breve descripción de cómo funciona (úsenlo y narren la experiencia)
 Datos que proporciona (sean detallados)
 Usos que se le puede dar a los datos
 Evaluación del 1 al 10
 Usabilidad del diseño
 Facilidad de uso
 Velocidad
¿Qué hemos aprendido hoy?
Aprendizaje evidenciado / Cierre
Bibliografía y Referencias
López Murphy, Juan José & Zarza, Gonzalo (2017). La ingeniería del big data. Cómo trabajar con datos. Bercelona, Editorial UOC.
Mayer-Schönberger, Viktor & Cukier, Kenneth (2013). Big Data. La revolución de los datos masivos. México, Editorial Titivillus.
Ríos Insua, David & Gómez-Ullate Oteiza, David (2019). Big data. Conceptos, tecnologías y aplicaciones. Madrid, Consejo Superior de
Investigaciones Científicas
Sosa Escudero, Walter (2019). Big data. Buenos Aires, Siglo XXI editores.
Tascón, Mario & Coullaut, Arantza (2016). Big Data y el Internet de las cosas. Qué hay detrás y cómo nos va a cambiar. Madrid, Los libros de
la catarata.
Referencias
Muchas
gracias
Comunicación audiovisual en
medios digitales
Big data.pptx

Big data.pptx

  • 2.
  • 3.
    Al finalizar lasesión, el estudiante conoce cuales son los fundamentos esenciales del big data y su aplicación en las empresas, de manera clara y precisa. Logro de la sesión 01
  • 4.
    Interés / inicio DIALOGUEMOS ¿Cuántas personas, en tu casa, suelen estar conectadas a internet con frecuencia?  Con relación a tu experiencia personal en las redes sociales digitales:  ¿Cuántos veces, en promedio, reaccionas cada día?  ¿Cuántos veces, en promedio, publicas cada día (fotos, textos, vídeos)?  ¿Cuántos veces, en promedio, comentas publicaciones de otro cada día?
  • 5.
    Interés / inicio AHORACOMPAREMOS Raconteur, contenido para responsables de toma de decisiones empresariales https://www.raconteur.net/ infographics/a-day-in- data/
  • 6.
  • 7.
    Interés / inicio ¿YEN QUÉ PODEMOS USAR ESTOS DATOS?  En salud y sanidad  En educación  En seguridad  En política  En deportes  En marketing  …
  • 8.
  • 9.
    Big data esun término que hace referencia a una cantidad de datos de orígenes muy diversos, tal que supera la capacidad del software convencional para ser capturados, administrados y procesados para extraer conocimiento,
  • 10.
    Big Data Tratamiento degrandes cantidades de información, ordenada y procesada para contribuir con la mejora de la automatización y la toma de decisiones a partir de predicciones
  • 13.
    Las 5 Vdel Big Data Valor Veracidad Variedad Velocidad Volumen
  • 14.
    Volumen  Acumulación dedatos a gran escala (local, nacional, regional y mundial)  Los grandes retos del volumen de datos son Recopilación Almacenamiento Gestión  Demandan soluciones de hardware y software mucho más exigente y sólidas que las convencionales
  • 15.
    Velocidad  La informaciónse produce a cada momento  Por lo mismo, tiende a ser obsoleta en el mediano plazo  Por lo tanto, para que adquiera mayor utilidad debe ser procesada lo más rápido posible  Para ello debe recurrirse a la automatización de los procesos de gestión de datos
  • 16.
    Variedad  La información Provienede múltiples fuentes (compras, mensajes, ubicaciones geográficas, etc.) Se genera de múltiples modos (números, texto en varios idiomas, sonidos e imágenes en diferentes formatos)  El cruce de datos variados permite efectuar predicciones útiles para tomar decisiones  Esto se relaciona, en el entorno digital, con el diseño de algoritmos
  • 17.
    Veracidad  Existen datosque son más o menos fiables (es decir que otorgan confianza y seguridad) Por ejemplo, no es lo mismo conocer la talla de una persona que su opinión sobre determinado tema  Sin embargo, sean más o menos fiables, los datos siguen siendo importantes para ser usados en la predictibilidad  La diferencia es que cada tipo de datos debe procesarse de manera distinta
  • 18.
    Valor  Se relacionacon la utilidad real que se puedan tener los datos  Al ser masivos, cada dato implica un alto costo al ser recogido, almacenado y gestionado  Por ello se debe determinar Cuáles son los datos necesarios Cómo se relacionan esos datos (por oposición, por complementariedad, etc.) Cuán importantes son a nivel de costo beneficio en función a objetivos previamente determinados
  • 19.
    Pirámide de lavalorización de datos Conocimiento Información Datos
  • 20.
    Tipos de datos EstructuradosSemiestructurados No estructurados
  • 21.
    Datos estructurados  Cuentancon un formato específico de almacenamiento  Pueden ser proporcionados por personas (por ejemplo DNI, edad, reacciones en redes sociales digitales, etc.) o por máquinas (ubicación por GPS, visitas en internet, etc.)  Son los más sencillos y rápidos de ordenar por los software de procesamiento
  • 22.
    Datos semiestructurados  Tienenalgunas características fijas y otras no definidas  Un ejemplo son las fotografías, cuyos datos definidos son, por ejemplo, el tamaño y el formato, y los no definidos son las etiquetas, las personas u objetos fotografiados, etc.  La tendencia es buscar estructurarlos en lo posible, a partir, por ejemplo, de software de reconocimiento facial
  • 23.
    Datos no estructurados Se trata de datos que no tienen ninguna estructura pre definida  Por ejemplo los correos electrónicos, las publicaciones escritas o comentarios en redes sociales digitales, etc.  Su procesamiento y búsqueda de estructuración, en estos casos, se suele dar mediante algoritmos de identificación, por ejemplo, de combinaciones de palabras
  • 24.
    Del Big Dataal Small Data Big data Small data
  • 25.
    Del Big dataal Small data  Para Martin Lindstrom, el Small Data es la evolución natural del Big Data  De lo que se trata es de prestar atención a detalles específicos que complementen las proyecciones obtenidas de forma masiva  El enfoque, en ambos casos, está en la valorización de los datos (es decir, el conocimiento útil que pueda lograrse al cruzar ambos enfoques)
  • 26.
    Diferencias entre BigData y Small Data Big Data Small Data Busca patrones de comportamiento a partir de algoritmos. Busca comprender comportamientos específicos. Su principal valor son los datos relacionados en gran volumen durante un extenso periodo de tiempo (extensión). Su principal valor es la concentración en pocos datos en momentos específicos (profundidad). Para que los datos se procesen de forma rápida se requiere de inversión en hardware y software, además de especialización en ingeniería de sistemas. Los datos son más fáciles, rápidos y económicos de procesar, pues se pueden recoger de forma directa y analizar en hojas de cálculo. Se trata de un enfoque relativamente nuevo (su desarrollo principal se da a partir del siglo XXI, con el auge del internet de las cosas). Se utilizaba, sin usar ese nombre, desde hace más tiempo (a partir de encuestas, entrevistas, observaciones, etc.).
  • 27.
    Big Data • https://sg-branding.com/2019/04/socrates- aumento-ventas-lego-big-data/ SmallData • https://www.santander.com.ar/banco/online /pymes-advance/formacion- empresarial/pildoras-de- conocimiento/estrategia-de-negocios/lego- en-la-era-del-small-data Ejemplo de enfoques de Big Data y Small Data en Lego
  • 28.
    La diferencia no estáen la TECNOLOGÍA si no en saber cómo UTILIZARLA
  • 29.
    Actividad: Evaluar en grupos softwarede procesamiento de datos en internet El sofware se asignará aleatoriamente a cada grupo Experiencia / desarrollo
  • 30.
    Software a evaluar 1.Answerthepublic 2. ArcGIS Online 3. BuzzSumo 4. Pingdom tools 5. Semrush 6. Similarweb 7. Tableau Public 8. Ubersuggest 9. Uptime robot
  • 31.
    Lista de cotejo Nombres de los integrantes  Nombre del software  Tipo de software  Por disponibilidad (gratuito totalmente, gratuito parcialmente, de pago)  Por funcionalidad (funciona en línea libremente, funciona en línea previo registro, se debe descargar e instalar)  Breve descripción de cómo funciona (úsenlo y narren la experiencia)  Datos que proporciona (sean detallados)  Usos que se le puede dar a los datos  Evaluación del 1 al 10  Usabilidad del diseño  Facilidad de uso  Velocidad
  • 32.
    ¿Qué hemos aprendidohoy? Aprendizaje evidenciado / Cierre
  • 33.
    Bibliografía y Referencias LópezMurphy, Juan José & Zarza, Gonzalo (2017). La ingeniería del big data. Cómo trabajar con datos. Bercelona, Editorial UOC. Mayer-Schönberger, Viktor & Cukier, Kenneth (2013). Big Data. La revolución de los datos masivos. México, Editorial Titivillus. Ríos Insua, David & Gómez-Ullate Oteiza, David (2019). Big data. Conceptos, tecnologías y aplicaciones. Madrid, Consejo Superior de Investigaciones Científicas Sosa Escudero, Walter (2019). Big data. Buenos Aires, Siglo XXI editores. Tascón, Mario & Coullaut, Arantza (2016). Big Data y el Internet de las cosas. Qué hay detrás y cómo nos va a cambiar. Madrid, Los libros de la catarata. Referencias
  • 35.