BIG DATA
Jhonatan Steven Cárdenas Ojeda
¿QUÉ ES “BIG DATA”?
Big data (en español, grandes datos o
grandes volúmenes de datos) es un
término evolutivo que describe
cualquier cantidad voluminosa de datos
estructurados, semiestructurados y no
estructurados que tienen el potencial
de ser extraídos para obtener
información.
CARACTERÍSTICAS
DE “BIG DATA”
1. VOLUMEN: Es la cantidad de datos generados y guardados, estos
determinan el potencial y veracidad del mismo.
2. VARIEDAD: Es el tipo y naturaleza de los datos, de este modo se
determina el apoyo que le da al usuario.
3. VELOCIDAD: Esta es la velocidad que se genera para cumplir las
exigencias de los datos.
4. VERACIDAD: Se define como la calidad de los datos, ya que de ésta
depende la variedad y los resultados de la información.
TIPOS DE “BIG DATA”
1. DATOS ESTRUCTURADOS: Son los datos que tienen bien definida su
longitud y su formato, como por ejemplo las bases de datos
relacionales y los almacenes de datos.
2. DATOS NO ESTRUCTURADOS: Son los datos que necesitan un
formato específico, como por ejemplo archivos pdf, documentos
multimedia, correos electrónicos o documentos de texto.
3. DATOS SEMIESTRUCTURADOS: Son datos que no se limitan a
campos determinados pero requieren marcadores para separar la
información, tales como hojas de cálculo, HTML, XML o JSON.
¿DE DÓNDE PROVIENEN TODOS ESTOS DATOS?
1. GENERADOS POR LAS PERSONAS: Enviar información en cualquier red
social o cualquier otra cosa que se registre en base de datos.
2. TRANSACCIONES DE DATOS: La facturación, las llamadas o las
transacciones entre cuentas.
3. MARKETING ELECTRONICO Y WED: Navegación por internet.
4. MÁQUINA A MÁQUINA: Tecnologías que comparten datos mediante
dispositivos. Comunicaciones inalámbricas.
5. BIOMÉTRICA: Datos que provienen de la seguridad, defensa y servicios de
inteligencia.
TRANSFORMACIÓN
Aquí entran en juego las
plataformas extraer, transformar y
cargar (ETL). Su propósito es extraer los
datos de las diferentes fuentes y sistemas,
para después hacer transformaciones
(conversiones de datos, limpieza de datos
sucios, cambios de formato…) y finalmente
cargar los datos en la base de datos
o almacén de datos especificada.
ALMACENAMIENTO NOSQL
Son sistemas que provienen de un almacenamiento más flexible y
concurrente y permitir de manipular grandes cantidades de
información mucho más rápido por lo cual no cumplen con el
esquema entidad – relación.
TIPOS DE DATOS NOQSL
1. ALMACENAMIENTO CLAVE – VALOR: Los datos se almacenan de tal forma que
se acceda con una palabra clave.
2. ALMACENAMIENTO DOCUMENTAL: Son datos semiestructurados que pasan a
llamarse documentos formateados en una misma base de datos que acepte.
3. ALMACENAMIENTO EN GRAFO: Relacionan grandes cantidades de datos que
pueden ser muy variables. Además se establece que la relación son los nodos y
las relaciones entre la información, los artistas.
4. ALMACENAMIENTO ORIENTADO A COLUMNAS: Se orienta a almacenar datos
con tendencia a escalar horizontalmente, por lo que permite guardar diferentes
atributos y objetos bajo la misma clave.
TÉCNICAS DE ANÁLISIS DE DATOS
1. ASOCIACIÓN: Permite encontrar relaciones entre diferentes variables.
2. MINERÍA DE DATOS: Tiene como objetivo encontrar comportamientos
predilectos.
3. AGRUPACIÓN: Metodología para encontrar relaciones entre resultados
y haces una evaluación preliminar de la estructura de los datos
analizados.
4. ANÁLISIS DE TEXTO: Extrae información de datos generados por
personas (mensajes de textos, búsquedas web… etc) de esta forma
moldea temas y asuntos o predecir palabras.
UTILIDAD
El objetivo es que ciudadanos y
empresas puedan reaprovechar
estos datos para generar valor
económico. Podrán construir
sobre ellos una nueva idea que
genere nuevos datos,
conocimientos o incluso la
creación de nuevos servicios que
reporten beneficios económicos y
o sociales.
VISUALIZACIÓN
En los macro datos se llega un paso
más allá, ya que es una plataforma
que permite visualizar la información
a través de los análisis llevados a
cabo sobre los datos que
disponemos. Ésta trata de llegar a un
público más concreto, y una utilidad
más acotada como un cuadro de
mando integral de una información.

BIG DATA - Jhonatan Cárdenas COL

  • 1.
    BIG DATA Jhonatan StevenCárdenas Ojeda
  • 2.
    ¿QUÉ ES “BIGDATA”? Big data (en español, grandes datos o grandes volúmenes de datos) es un término evolutivo que describe cualquier cantidad voluminosa de datos estructurados, semiestructurados y no estructurados que tienen el potencial de ser extraídos para obtener información.
  • 3.
    CARACTERÍSTICAS DE “BIG DATA” 1.VOLUMEN: Es la cantidad de datos generados y guardados, estos determinan el potencial y veracidad del mismo. 2. VARIEDAD: Es el tipo y naturaleza de los datos, de este modo se determina el apoyo que le da al usuario. 3. VELOCIDAD: Esta es la velocidad que se genera para cumplir las exigencias de los datos. 4. VERACIDAD: Se define como la calidad de los datos, ya que de ésta depende la variedad y los resultados de la información.
  • 4.
    TIPOS DE “BIGDATA” 1. DATOS ESTRUCTURADOS: Son los datos que tienen bien definida su longitud y su formato, como por ejemplo las bases de datos relacionales y los almacenes de datos. 2. DATOS NO ESTRUCTURADOS: Son los datos que necesitan un formato específico, como por ejemplo archivos pdf, documentos multimedia, correos electrónicos o documentos de texto. 3. DATOS SEMIESTRUCTURADOS: Son datos que no se limitan a campos determinados pero requieren marcadores para separar la información, tales como hojas de cálculo, HTML, XML o JSON.
  • 5.
    ¿DE DÓNDE PROVIENENTODOS ESTOS DATOS? 1. GENERADOS POR LAS PERSONAS: Enviar información en cualquier red social o cualquier otra cosa que se registre en base de datos. 2. TRANSACCIONES DE DATOS: La facturación, las llamadas o las transacciones entre cuentas. 3. MARKETING ELECTRONICO Y WED: Navegación por internet. 4. MÁQUINA A MÁQUINA: Tecnologías que comparten datos mediante dispositivos. Comunicaciones inalámbricas. 5. BIOMÉTRICA: Datos que provienen de la seguridad, defensa y servicios de inteligencia.
  • 6.
    TRANSFORMACIÓN Aquí entran enjuego las plataformas extraer, transformar y cargar (ETL). Su propósito es extraer los datos de las diferentes fuentes y sistemas, para después hacer transformaciones (conversiones de datos, limpieza de datos sucios, cambios de formato…) y finalmente cargar los datos en la base de datos o almacén de datos especificada.
  • 7.
    ALMACENAMIENTO NOSQL Son sistemasque provienen de un almacenamiento más flexible y concurrente y permitir de manipular grandes cantidades de información mucho más rápido por lo cual no cumplen con el esquema entidad – relación.
  • 8.
    TIPOS DE DATOSNOQSL 1. ALMACENAMIENTO CLAVE – VALOR: Los datos se almacenan de tal forma que se acceda con una palabra clave. 2. ALMACENAMIENTO DOCUMENTAL: Son datos semiestructurados que pasan a llamarse documentos formateados en una misma base de datos que acepte. 3. ALMACENAMIENTO EN GRAFO: Relacionan grandes cantidades de datos que pueden ser muy variables. Además se establece que la relación son los nodos y las relaciones entre la información, los artistas. 4. ALMACENAMIENTO ORIENTADO A COLUMNAS: Se orienta a almacenar datos con tendencia a escalar horizontalmente, por lo que permite guardar diferentes atributos y objetos bajo la misma clave.
  • 9.
    TÉCNICAS DE ANÁLISISDE DATOS 1. ASOCIACIÓN: Permite encontrar relaciones entre diferentes variables. 2. MINERÍA DE DATOS: Tiene como objetivo encontrar comportamientos predilectos. 3. AGRUPACIÓN: Metodología para encontrar relaciones entre resultados y haces una evaluación preliminar de la estructura de los datos analizados. 4. ANÁLISIS DE TEXTO: Extrae información de datos generados por personas (mensajes de textos, búsquedas web… etc) de esta forma moldea temas y asuntos o predecir palabras.
  • 10.
    UTILIDAD El objetivo esque ciudadanos y empresas puedan reaprovechar estos datos para generar valor económico. Podrán construir sobre ellos una nueva idea que genere nuevos datos, conocimientos o incluso la creación de nuevos servicios que reporten beneficios económicos y o sociales.
  • 12.
    VISUALIZACIÓN En los macrodatos se llega un paso más allá, ya que es una plataforma que permite visualizar la información a través de los análisis llevados a cabo sobre los datos que disponemos. Ésta trata de llegar a un público más concreto, y una utilidad más acotada como un cuadro de mando integral de una información.