2. BIG DATA
Definición:
Big data o macrodatos es un término que hace referencia a una cantidad de
datos tal que supera la capacidad del software convencional para ser
capturados, administrados y procesados en un tiempo razonable. El término de
"big data" o "macrodatos", es muy conocido en la actualidad gracias a las
empresas de marketing, la mayoría de la población que usa internet
frecuentemente cree que es una nueva tecnología, teniendo en cuenta que
existe desde hace unos 12 años, fecha que coincide con la aparición masiva
de datos en internet. El límite superior de procesamiento ha ido creciendo a lo
largo de los años.
4. • Volumen: La cantidad de datos generados y guardado. El tamaño
de los datos determina el valor y entendimiento potencial, y si los
puede considerar como auténticos.
• Variedad: El tipo y naturaleza de los datos para ayudar a las
personas a analizar los datos y usar los resultados de forma eficaz.
Los macrodatos usan textos imágenes, audio y vídeo.
• Velocidad: en este contexto, la velocidad a la cual se generan y
procesan los datos para cumplir las exigencias y desafíos de su
análisis.
• Veracidad: La calidad de los datos capturados puede variar mucho
y así afectar a los resultados del análisis, una gran parte de los
datos provienen de social media, aunque mucha gente cree que
todos los datos que usamos son de redes sociales, cosa que es
totalmente falsa, una gran parte viene de ahí.
CARACTERÍSTICAS
7. Tipo - La variedad de tipos de datos es cada vez mayor
• No estructurados de datos basados en texto
• Datos semi-estructurados como los datos de los
medios sociales
• Los datos basados en la localización
• Datos de logs, ejemplo servidores Web
8. Principales fuentes de datos
Redes sociales y medios de comunicación
700 millones de usuarios de Facebook, 250 millones de
usuarios de Twitter y 156 millones de blogs públicos
Dispositivos móviles
Más de 5 mil millones de teléfonos móviles en uso en
todo el mundo
Transacciones en Internet
Miles de millones de compras en línea, operaciones de
bolsa y otras transacciones ocurren todos los días
Dispositivos de red y sensores
9. FUNCIONAMIENTO
Las tecnologías de big data hacen que
resulte técnica y económicamente viable
no solo recopilar y almacenar conjuntos
grandes de datos, sino también
analizarlos para descubrir información
nueva y valiosa. En la mayoría de los
casos, el procedimiento de los datos
sigue un flujo de datos como son:
Recopilar Procesar y analizarAlmacenar Consumir y visualizar
10. Recopilar
Una plataforma de big data
adecuada facilita este paso y
permite a los desarrolladores la
recepción de una gran variedad
de datos, tanto estructurados
como no estructurados, a
cualquier velocidad, ya sea en
tiempo real o en lotes.
11. Almacenar
Cualquier plataforma de big
data necesita un repositorio
seguro, escalable y duradero
donde almacenar los datos
antes o incluso después de
procesarlos.
12. Procesar y analizar
En este paso, los datos se
transforman de datos sin
procesar a datos consumibles,
normalmente al clasificar,
acumular, unir e incluso
realizar funciones y algoritmos
más avanzados.
13. Consumir y visualizar
Lo ideal es que las partes
interesadas puedan acceder a
los datos mediante herramientas
ágiles de visualización de datos
e inteligencia empresarial de
autoservicio que les permitan
explorar los conjuntos de datos
de forma rápida y sencilla.
15. EJEMPLO
Ejecución de consultas en paralelo y
distribuidos
1. Consultas SQL enviadas al nodo de control.
2. El nodo de control crea plan de ejecución de
la consulta.
3. El plan de consulta crea consultas
distribuidas para su ejecución en cada nodo de
cómputo.
4. Las consultas distribuidas enviados nodos en
de cálculo (todos corriendo en paralelo).
5. El nodo de control recoge los resultados de la
consulta y los devuelve al usuario.