Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdf
1. facultad de ciencias económicas
Sistemas de Información - Prof. Marcelo Tadey – Pág. 1
Sistemas de Información
UNIDAD 4
BIG DATA
TIPOS DE DATOS Y SU INTEGRACIÓN. CARACTERÍSTICAS PRINCIPALES DEL BIG DATA. ORIGEN DE LAS FUENTES DE
DATOS. ANALÍTICA DE BIG DATA. TIPOS DE BIG DATA. TECNOLOGÍAS Y HERRAMIENTAS. ANALÍTICA WEB.
ANALÍTICA DE DATOS Y WEB 2.0. MÉTRICAS DE ANALÍTICA WEB. ANALÍTICA SOCIAL. MÉTRICAS DE LA ANALÍTICA
SOCIAL. HERRAMIENTAS DE LA ANALÍTICA SOCIAL.
2. Bibliografía
Sistemas de Información - Prof. Marcelo Tadey Pág. 2
Joyanes Aguilar L. (2015). Sistemas
de Información en la empresa. CAPS.
8, 13, 14 y 15
4. Introducción
Sistemas de Información - Prof. Marcelo Tadey – Pág. 4
• Big Data supone la confluencia de una multitud de tendencias tecnológicas:
• Movilidad
• Redes sociales
• Aumento de la banda ancha y reducción de su costo
• Internet de las cosas
• Geolocalización
• Cloud Computing
• Entre otras…
5. Definición
Sistemas de Información - Prof. Marcelo Tadey – Pág. 5
• Definición IDC: Big data es una nueva generación de tecnologías, arquitecturas y estrategias diseñadas
para capturar y analizar grandes volúmenes de datos provenientes de múltiples fuentes heterogéneas
a una alta velocidad con el objeto de extraer valor económico de ellos.
• Definición Deloitte: El término que se aplica a conjuntos de datos cuyo volumen supera la capacidad
de las herramientas informáticas de uso común, para capturar, gestionar, y procesar datos en un lapso
de tiempo razonable.
• Definición Gartner: Big data son los grandes conjuntos de datos que tiene tres características
principales: volumen, velocidad y variedad (tipos de fuentes de datos no estructurados, tales como la
interacción social, video, audio, cualquier cosa que se pueda clasificar en una base de datos.
• Definición mcKinsey Global Institute: Big data se refiere a conjuntos de datos cuyo tamaño está más
allá de las capacidades de las herramientas típicas de software de bases de datos para capturar,
almacenar, gestionar y analizar.
6. Tipos de Datos
Sistemas de Información - Prof. Marcelo Tadey – Pág. 6
• Los Big Data son diferentes de las fuentes de datos tradicionales que almacenan datos
estructurados en bases de datos tradicionales.
• Podemos dividir los tipos de datos en dos grandes categorías:
• Estructurados (datos tradicionales)
• No estructurados (Big data)
• Las nuevas herramientas de Big data están introduciendo una nueva categoría dentro de
los datos no estructurados: los datos Semiestructurados. Entonces:
• No estructurados
• Semiestructurados
• No estructurados propiamente dichos
7. Tipos de Datos
Sistemas de Información - Prof. Marcelo Tadey – Pág. 7
• Datos estructurados:
• Son los que poseen la mayoría de las fuentes de datos, con campos fijos
• Conforman las bases de datos relacionales
• El formato de la información se conoce de antemano
• El formato ya está especificado
• Datos semiestructurados:
• Tienen un flujo y formato que pueden ser definidos
• No son fácilmente comprensibles por el usuario
• No tienen formato fijo pero contienen etiquetas y marcadores que permiten separarlos
• Se utilizan reglas complejas para proceder luego de la lectura de la información
• Datos no estructurados:
• No tienen un tipo predefinido
• Se almacenan como documentos u objetos si estructura uniforme
• Se tiene poco o ningún control sobre ellos
Web logs
Videos,
audios y
fotos
8. Oportunidades de negocio
Sistemas de Información - Prof. Marcelo Tadey – Pág. 8
• En un Big Data, la pieza clave es la integración de los
datos.
• La integración facilita la organización para combinar Big
Data y datos transaccionales.
• Esto genera valor y mayor eficacia.
• Es importante desarrollar una estrategia de Big Data que
no sea diferente a la estrategia de los datos
transaccionales, porque de lo contrario puede fallar la
estrategia del negocio.
9. Características de Big Data
Sistemas de Información - Prof. Marcelo Tadey – Pág. 9
• Un Big Data abarca diversas tecnologías
• Los datos de entrada pueden proceder de redes sociales, logs, registros de servidores web, sensores,
imágenes satelitales, audio, radio, video, transacciones bancarias, contenido de páginas web,
documentos escaneados, rutas de GPS, datos de mercados financieros, etc.
• IBM plantea que Big Data abarca tres dimensiones fundamentales: Volumen, velocidad y variedad.
• Volumen
• Twitter genera más de 7 Terabytes por día
• Facebook: 10 TB
• Algunas empresas generan varios TB cada hora cada día del año
• Actualmente existe tecnología para analizar todos esos datos
10. Qué es Data Mining?
Sistemas de Información - Prof. Marcelo Tadey – Pág. 10
• Velocidad
• Se requiere que el procesamiento y posterior análisis se
realice en tiempo real
• Esto es para mejorar la toma de decisiones sobre la base de la
información generada
• Variedad
• Ya hemos hablado de los distintos tipos de datos que pueden
convivir en Big Data
• En los casos de datos que vienen de la web, hay una
complejidad adicional, y es que diferentes navegadores
envían datos diferentes. Se pueden utilizar diferentes
versiones de software, los usuarios pueden ocultar
información
• Las plataformas tradicionales no pueden manejar la variedad
11. 7V del Big Data según el Inst. de Ing. del Conocimiento
Sistemas de Información - Prof. Marcelo Tadey – Pág. 11
12. 7V del Big Data según el Inst. de Ing. del Conocimiento
Sistemas de Información - Prof. Marcelo Tadey – Pág. 12
13. 7V del Big Data según el Inst. de Ing. del Conocimiento
Sistemas de Información - Prof. Marcelo Tadey – Pág. 13
14. 7V del Big Data según el Inst. de Ing. del Conocimiento
Sistemas de Información - Prof. Marcelo Tadey – Pág. 14
15. 7V del Big Data según el Inst. de Ing. del Conocimiento
Sistemas de Información - Prof. Marcelo Tadey – Pág. 15
16. Fuentes de datos de Big Data
Sistemas de Información - Prof. Marcelo Tadey – Pág. 16
17. Fuentes de datos de Big Data
Sistemas de Información - Prof. Marcelo Tadey – Pág. 17
• Web y Social media
• Los datos proceden de los flujos de clics, tuits, entradas de Facebook, contenidos diversos,
ejemplo YouTube, Picasa, Dropbox, One Drive. Etc.
• Machine to machine (M2M) / Internet de las cosas (IOT)
• M2M: tecnologías que permiten que dispositivos se comuniquen con otros.
• Se utilizan sensores o medidores (humedad, velocidad, temperatura, presión, etc.)
• Los datos se transmiten a través de redes cableadas, inalámbricas y móviles a otras aplicaciones
• Los eventos se traducen en información significativa
• Se usan chips, etiquetas RFID, chips NFC, medidores inteligentes, GPS…
• M2M dio origen a IOT, que representa a los miles de millones de dispositivos que se comunican
entre si, y de ser necesario, pueden acceder a internet
18. Fuentes de datos de Big Data
Sistemas de Información - Prof. Marcelo Tadey – Pág. 18
• Transacciones de grandes datos
• Registros de facturación, telecomunicaciones, registros de llamadas. Estos datos
tradicionales pueden ser estructurados, semiestructurados o no estructurados
• Biometría
• Huellas digitales, iris, escaneo de retina, reconocimiento facial, genética, ADN,
reconocimiento de voz, pulso y escritura a mano.
• Datos generados por las personas:
• Llamadas a call centers, mensajes de voz, correos electrónicos, documentos, estudios
médicos, recetas médicas, etc.
• Esta información tiene adicionalmente el problema de la confidencialidad, lo que exige
cifrarla de algún modo para proteger la privacidad.
19. Almacenamiento en Data warehouse y Data marts
Sistemas de Información - Prof. Marcelo Tadey – Pág. 19
• Los datos podrán almacenarse en los EDW (enterprise data warehouse), y en Data marts,
pero además existirán almacenes de datos para tratar los grandes volúmenes que
conforman las bases de datos NoSQL.
• También se requiere de herramientas ETL.
• Adicionalmente existirán herramientas de BI (reporting, visualización y analítica).
• A medida que las organizaciones adoptan Big Data, deben adaptar su infraestructura para
conseguir soluciones híbridas, integrando tecnologías Hadoop y NoSQL modernas con los
entornos tradicionales de DW.
20. Bases de Datos
Sistemas de Información - Prof. Marcelo Tadey – Pág. 20
• SQL: Son las BD tradicionales.
• NoSQL: BD no relacional, distribuida, de alto rendimiento y altamente escalable. No usan SQL como
lenguaje de consulta principal.
• In-memory: BD que utilizan todos sus procesos en la memoria principal, utilizada como
almacenamiento de datos. Tienen una enorme velocidad de proceso.
• Legacy (heredadas): Algunas empresas siguen utilizando BD antiguas, pero integradas con BD
relacionales.
• DBaaS: Es la nueva tendencia de BD en la nube. Proveen el servicio de “As a Service”
21. Qué es Data Mining?
Sistemas de Información - Prof. Marcelo Tadey – Pág. 21
Analítica de Big
Data y web
22. La analítica de Big Data
Sistemas de Información - Prof. Marcelo Tadey – Pág. 22
• El análisis de grandes volúmenes de datos se puede hacer con herramientas
tradicionales como Data Mining o Análisis Predictivo.
• Como vimos, los datos no estructurados pueden no encajar en las bases de
datos tradicionales (relacionales o DW), ya que pueden no manejar datos
no estructurados y pueden tener problemas con grandes volúmenes.
• Por ello, como hemos visto, aparecen nuevas tecnologías de base de datos
no relacionales.
• Hoy en día, las empresas están incorporando información en crudo, sin
procesar, que se actualiza en tiempo real y presentan una enorme
complejidad.
• Parte de los grandes desafíos son el refinamiento de la información, su
organización, y su conversión a información valiosa que permita ganar
posiciones en el mercado.
23. La analítica de Big Data
Sistemas de Información - Prof. Marcelo Tadey – Pág. 23
• La Analítica de Big Data es el uso de técnicas analíticas aplicadas a conjuntos de grandes
volúmenes de datos. Vale decir que es dos cosas: analítica y Big Data.
• La analítica nos ayudará a descubrir nuevos segmentos de clientes, identificar a los mejores
proveedores, asociar productos por afinidad, entender la ventas según la estacionalidad, etc.
• La analítica pretende descubrir lo que ha cambiado y reaccionar a ese cambio. En este
sentido, el análisis de Big Data tiene como herramientas de análisis habituales a las siguientes:
• Consultas avanzadas en SQL
• Consultas e informes
• Análisis estadístico avanzado
• Visualización de datos
• Minería de datos, minería de textos, minería web y minería social
• Análisis y modelado predictivo
• Optimización y análisis de sensibilidad
• Tableros de control y de mando integral
24. Introducción
Sistemas de Información - Prof. Marcelo Tadey – Pág. 24
• La Analítica Web se centra en el análisis de los datos que fluyen a través de sitios y páginas Web.
• Se trata de encontrar datos significativos.
• Hemos visto que la analítica de datos implica los procesos y actividades diseñados para obtener y evaluar
datos para extraer información útil.
• Esta analítica de datos presenta cinco categorías que vemos en este curso:
• Analítica de datos: análisis de datos tradicionales.
• Analítica web: analítica del tráfico de datos en un sitio web.
• Analítica social: análisis de datos de los medios sociales.
• Analítica móvil: analítica en dispositivos móviles
• Analítica de Big Data: analítica de grandes volúmenes de datos
25. Analítica Web 2.0
Sistemas de Información - Prof. Marcelo Tadey – Pág. 25
• Qué implica la Analítica Web? Implica el análisis de datos cuantitativos y cualitativos de un
sitio web y de su competencia, para impulsar una mejora continua de la experiencia on-line
que tienen tanto los clientes habituales como los potenciales y que se traduce en resultados
esperados.
• El análisis web se soporta fundamentalmente en el clickstream (flujo o secuencia de clicks),
que permitirá conocer casi todo acerca de los usuarios o consumidores así como disponer de
datos suficientes para analizar lo que está sucediendo, y las acciones a realizar para mejorar.
• La recopilación, almacenamiento, procesamiento y análisis de la información de clicks se
puede realizar a partir de herramientas como Google Analytics, Yahoo Analytics, Webtrends,
etc.
• Para realizar analítica web, es necesario plantear el tema como un proyecto, haciendo un
análisis de costos, tiempos, evaluación de infraestructura de TI, y elección de la herramienta
de análisis.
• Otra decisión a tomar es si se realiza el análisis en el servidor o en tiempo real.
26. Métricas
Sistemas de Información - Prof. Marcelo Tadey – Pág. 26
• El análisis de clicks se apoya en métricas y KPIs.
• Una métrica es una valoración cuantitativa de estadísticas que describen tanto los eventos
como las tendencias de un sitio web. Las métricas permiten conocer el estado de un sitio web.
• Describiremos las ocho métricas más utilizadas:
• Visitas: es el número de veces que una persona entra en un sitio web, navegando por él
antes de abandonarlo. Técnicamente, este proceso se denomina sesión. Si un usuario
accede a un sitio web y permanece inactivo por un tiempo determinado, se da por
terminada la sesión. Y si el usuario continua activo en el sitio, se contabiliza como una
nueva sesión. Si un usuario se retira de un sitio, pero vuelve antes del plazo de
vencimiento, no se contabiliza como nueva sesión.
1. Visitante: No es una métrica realmente importante. Si un visitante ingresa más de una
vez, se cuenta solo como una vez, contabilizándose como visitante único.
27. Métricas
Sistemas de Información - Prof. Marcelo Tadey – Pág. 27
• Visitante Único: Es una de las métricas más importantes. Identifica al
número de personas diferentes que han accedido a un sitio web. Es
muy utilizada en el posicionamiento de buscadores y en campañas de
marketing. No es una medida perfecta porque no es fácil detectar que
visitante único sea sinónimo de persona única.
• Tiempo en la página y en el sitio: el tiempo promedio en un página
web, y el tiempo promedio en un sitio, son la duración del tiempo que
pasan los usuarios en cada página o sitio web durante una
determinada visita o sesión. Es un valor difícil de detectar con
precisión.
• Tasa de rebote: es el porcentaje de visitas a un sitio cuando se ha visto
una única página y se ha abandonado rápidamente sin dar un solo
click. Una tasa de abandono alta supone que las visitas no estaban
interesadas en los contenidos del sitio.
28. Métricas
Sistemas de Información - Prof. Marcelo Tadey – Pág. 28
• Tasa de Salida: Es el porcentaje de visitas que abandona un sitio web desde
cierta página, denominada página de salida. Es parecida a la tasa de rebote
pero tiene la gran diferencia que .a tasa de salida tiene presente el modo
de acceso al sitio web y cual es la página de salida.
• Tasa de conversión: es el porcentaje de resultados u objetivos conseguidos
por el número de visitantes únicos. Es una métrica de alto interés ya que
muestra el interés por el sitio web.
• Compromiso: es una métrica difícil de medir pero de gran importancia.
Busca conseguir los motivos emocionales por lo que un usuario decide
navegar por un sitio web. Aparecen los conceptos de simpatía, confianza,
orgullo, etc.
• Se puede considerar que el nro. de veces que un usuario visita un sitio o su
frecuencia dan el nivel de compromiso. Existen otros conceptos a analizar.
29. Métricas
Sistemas de Información - Prof. Marcelo Tadey – Pág. 29
• Otras Métricas:
• Visitas provenientes de buscadores o directas: indirectas: el usuario
escribe la dirección de la página. Directas: el usuario tiene al sitio en su
lista de favoritos en un navegador. De otras fuentes: lo usuarios llegan
redireccionados desde otros sitios web.
• Ranking de páginas más vistas / páginas por visita: un sitio está formado
por varias páginas, las cuales difieren por el número de veces que son
visitadas por los usuarios. Es una métrica atractiva para ver cuáles son
los contenidos más atractivos para los usuarios. Las páginas por visita es
el número medio de páginas visualizadas por visita al sitio web.
• Procedencia de las visitas: se trata de conocer desde dónde llegan las
visitas al sitio. Se calcula por la dirección IP de la conexión.
30. Acerca de los KPI
Sistemas de Información - Prof. Marcelo Tadey – Pág. 30
• Un KPI es una métrica que ayuda de modo racional a conseguir los objetivos previstos por el
sitio web.
• Todos los KPI son métricas, pero no todas las métricas son KPI.
• En general, los mejores KPI son los propios de un negocio. Ejemplos:
• E-commerce: Tasa de conversión
• Página corporativa de una empresa: número de formularios enviados, incidencias
atendidas, descargas de videos, documentación, etc.
• Medio de comunicación: número de páginas vistas con inserción de anuncios, visitas y
procedencia, indicadores de fidelidad.
• Blog: número de comentarios, retuits, etc.
• Reservas de viajes: tasa de conversión, tasa de rebote, tiempo de permanencia en el sitio.
31. Analítica web móvil
Sistemas de Información - Prof. Marcelo Tadey – Pág. 31
• Nace de la necesidad de conocer el retorno de la inversión en el canal móvil.
• Comprende el conjunto de prácticas y tecnologías para coleccionar y analizar los datos de la
presencia en Internet desde móviles, tablets, con el objetivo de tomar decisiones de negocio.
• Algunas de las preguntas que se pueden responder son:
• Quién usa mis aplicaciones móviles?
• Qué es mejor, una aplicación web o nativa?
• Qué productos demandan los usuarios desde móviles y tablets?
• Cómo funciona mi sitio web en móviles?
• Se debe incluir:
• Recolección de datos
• Análisis
• Entrega y gestión de informes
32. Qué es Data Mining?
Sistemas de Información - Prof. Marcelo Tadey – Pág. 32
Analítica
social
33. Introducción
Sistemas de Información - Prof. Marcelo Tadey – Pág. 33
• Los medios sociales tiene mucha responsabilidad en el enorme
crecimiento de los grandes volúmenes de datos.
• No solo nos referimos a Facebook, Google, ebay, Mercado Libre, Twitter,
Instagram y Tik Tok, sino también a blogs, foros, wikis, chats, etc.
• Todo esto lleva a la necesidad de descubrir los datos que REALMENTE
son significativos para las organizaciones.
• Esto motivó a que el análisis de los datos sociales sea hoy una necesidad
vital.
• La analítica social permite integrar y analizar los datos no estructurados
en emails, chats, portales, blogs, y otros medios sociales usando la
inteligencia de negocios y otras herramientas. Los informes en tiempo
real permiten obtener información sobre las tendencias de consumo.
34. Sobrecarga de Información
Sistemas de Información - Prof. Marcelo Tadey – Pág. 34
• Uno de los grandes especialistas en medios sociales (Lovett), recomienda los
siguientes pasos para evitar la sobrecarga:
• Establecer expectativas sobre lo que se espera aprender de los datos.
• Clasificar las iniciativas de medios sociales, y averiguar sobre las métricas de éxito.
• Activar la recopilación en pequeñas porciones.
• Analizar los datos para separar la señal (datos válidos) del ruido.
• Mejores métodos de recopilación y análisis.
• Informar los descubrimientos a los directivos de la organización.
• Evaluación constante de los planes de medios sociales.
• La sobrecarga es inevitable, pero una buena gestión de medios sociales con buenos
programas y análisis permitirá el uso racional y una relación señal/ruido aceptable.
• De todos modos se debe estar pendiente de la sobrecarga, pese a una buena
gestión.
35. Entonces… Qué es la Analítica Social?
Sistemas de Información - Prof. Marcelo Tadey – Pág. 35
• Análisis Social es la disciplina que ayuda a las empresas a analizar,
calcular y explicar el rendimiento de las iniciativas de medios
sociales en el contexto de objetivos empresariales específicos.
• Mide, analiza e interpreta los datos sociales que se presentan a
través de diferentes canales, medios de comunicación y dispositivos.
• Se basa en la teoría de las redes sociales, en técnicas estadísticas y
en la buena gestión de los medios sociales de la empresa.
• Debe vincular la información a otras métricas de gestión
empresarial y KPI.
• Proporciona los datos necesarios para la adecuada toma de
decisiones, acerca de como están funcionando los diferentes
modelos de negocio y cómo se pueden mejorar.
• Entre sus objetivos están lograr el aumento de consumidores,
empleados o negocios, así como visualizar mejor patrones,
tendencias y oportunidades.
36. Métrica de Medios Sociales
Sistemas de Información - Prof. Marcelo Tadey – Pág. 36
• La necesidad de crear nuevas métricas tiene como objetivo principal obtener
los siguientes indicadores:
• Conocer el número de conversaciones de los usuarios sobre la marca en relación con
la competencia y la industria.
• Obtener los sentimientos que se generan en las conversaciones de los usuarios sobre
la empresa.
• Evaluar el potencial alcance en las diferentes redes sociales.
• Medir nuevos seguidores, fans, sus niveles de compromiso a través de una
activación o campaña de marketing.
• Medirla circulación de emails que generan los usuarios vinculados a
campañas.
• Medir la circulación de mensajería de texto en Whatsapp, Viber, Telegram.
Snapchat por ejemplo.
• Medir la circulación de los videos más vistos, blogs visitados, etc.
37. Métrica de Medios Sociales
Sistemas de Información - Prof. Marcelo Tadey – Pág. 37
• Se pueden generar entonces estas métricas (entre otras):
• Seguidores
• Publicaciones
• Videos más vistos
• Interacción y Compromiso
• Alcance potencial
• Influencers
• Fans
• Circulación de emails
• Audiencia Potencial
• Visitas y tiempo de permanencia en Blogs
• Topic Trends
38. Estadística social
Sistemas de Información - Prof. Marcelo Tadey – Pág. 38
• Los medios sociales tienen su propias herramientas estadísticas que permiten el
acceso y análisis de datos:
• Facebook Insights: Panel de estadísticas sobre rendimiento de la página,
tendencias de uso, datos demográficos de los usuarios, datos de consumo y
creación de contenido.
• Posee información, pero no tan evolucionada como Facebook. Hay terceros que
ofrecen estadísticas sobre Twitter. Socialtoo, tweetstats, twitsproub son algunas
de ellas.
• Google Analytics: posee varias herramientas, y algunas de ellas permiten obtener
métricas de interacción en otras redes sociales como Facebook y Twitter.
• YouTubeInsights: información sobre visitantes y videos.