2. ¿QUÉ ES “BIG DATA”?
Big data (en español, grandes datos o
grandes volúmenes de datos) es un
término evolutivo que describe
cualquier cantidad voluminosa de datos
estructurados, semiestructurados y no
estructurados que tienen el potencial
de ser extraídos para obtener
información.
3. CARACTERÍSTICAS
DE “BIG DATA”
1. VOLUMEN: Es la cantidad de datos generados y guardados, estos
determinan el potencial y veracidad del mismo.
2. VARIEDAD: Es el tipo y naturaleza de los datos, de este modo se
determina el apoyo que le da al usuario.
3. VELOCIDAD: Esta es la velocidad que se genera para cumplir las
exigencias de los datos.
4. VERACIDAD: Se define como la calidad de los datos, ya que de ésta
depende la variedad y los resultados de la información.
4. TIPOS DE “BIG DATA”
1. DATOS ESTRUCTURADOS: Son los datos que tienen bien definida su
longitud y su formato, como por ejemplo las bases de datos
relacionales y los almacenes de datos.
2. DATOS NO ESTRUCTURADOS: Son los datos que necesitan un
formato específico, como por ejemplo archivos pdf, documentos
multimedia, correos electrónicos o documentos de texto.
3. DATOS SEMIESTRUCTURADOS: Son datos que no se limitan a
campos determinados pero requieren marcadores para separar la
información, tales como hojas de cálculo, HTML, XML o JSON.
5. ¿DE DÓNDE PROVIENEN TODOS ESTOS DATOS?
1. GENERADOS POR LAS PERSONAS: Enviar información en cualquier red
social o cualquier otra cosa que se registre en base de datos.
2. TRANSACCIONES DE DATOS: La facturación, las llamadas o las
transacciones entre cuentas.
3. MARKETING ELECTRONICO Y WED: Navegación por internet.
4. MÁQUINA A MÁQUINA: Tecnologías que comparten datos mediante
dispositivos. Comunicaciones inalámbricas.
5. BIOMÉTRICA: Datos que provienen de la seguridad, defensa y servicios de
inteligencia.
6. TRANSFORMACIÓN
Aquí entran en juego las
plataformas extraer, transformar y
cargar (ETL). Su propósito es extraer los
datos de las diferentes fuentes y sistemas,
para después hacer transformaciones
(conversiones de datos, limpieza de datos
sucios, cambios de formato…) y finalmente
cargar los datos en la base de datos
o almacén de datos especificada.
7. ALMACENAMIENTO NOSQL
Son sistemas que provienen de un almacenamiento más flexible y
concurrente y permitir de manipular grandes cantidades de
información mucho más rápido por lo cual no cumplen con el
esquema entidad – relación.
8. TIPOS DE DATOS NOQSL
1. ALMACENAMIENTO CLAVE – VALOR: Los datos se almacenan de tal forma que
se acceda con una palabra clave.
2. ALMACENAMIENTO DOCUMENTAL: Son datos semiestructurados que pasan a
llamarse documentos formateados en una misma base de datos que acepte.
3. ALMACENAMIENTO EN GRAFO: Relacionan grandes cantidades de datos que
pueden ser muy variables. Además se establece que la relación son los nodos y
las relaciones entre la información, los artistas.
4. ALMACENAMIENTO ORIENTADO A COLUMNAS: Se orienta a almacenar datos
con tendencia a escalar horizontalmente, por lo que permite guardar diferentes
atributos y objetos bajo la misma clave.
9. TÉCNICAS DE ANÁLISIS DE DATOS
1. ASOCIACIÓN: Permite encontrar relaciones entre diferentes variables.
2. MINERÍA DE DATOS: Tiene como objetivo encontrar comportamientos
predilectos.
3. AGRUPACIÓN: Metodología para encontrar relaciones entre resultados
y haces una evaluación preliminar de la estructura de los datos
analizados.
4. ANÁLISIS DE TEXTO: Extrae información de datos generados por
personas (mensajes de textos, búsquedas web… etc) de esta forma
moldea temas y asuntos o predecir palabras.
10. UTILIDAD
El objetivo es que ciudadanos y
empresas puedan reaprovechar
estos datos para generar valor
económico. Podrán construir
sobre ellos una nueva idea que
genere nuevos datos,
conocimientos o incluso la
creación de nuevos servicios que
reporten beneficios económicos y
o sociales.
11.
12. VISUALIZACIÓN
En los macro datos se llega un paso
más allá, ya que es una plataforma
que permite visualizar la información
a través de los análisis llevados a
cabo sobre los datos que
disponemos. Ésta trata de llegar a un
público más concreto, y una utilidad
más acotada como un cuadro de
mando integral de una información.