Laboratorio 3 formato ieee "Tecnologias de Big Data"

Laboratorio de Arquitectura de Computadores
presentación de informe relacionado con la consulta
de “Big Data”
Javier Peña Cañón
Email: Javier_v12@hotmail.com
Estudiante de Ingeniería de Sistemas
UNAD-Arquitectura de Computadores
Abstract
This document refers to new technologies applied for
management of data in modern organization, what are the
new technologies that has an exponential growing in data
field. In modern organization arises the necessity to manage
a huge data base optimizing the hardware design for the
purpose.
Resumen
Este documento cita pautas de nuevas tecnologías
desarrollada para el manejo de las bases de datos en el cual
la organización moderna requiere un control basado en la
eficacia y eficiencia del diseño que permita la localización
de grandes datos.Durante el desarrollo se consultan fuentes
confiables que dan un direccionamiento al conocimiento y
estarconsciente de los nuevos cambios con el fin de alcanzar
nuevos conocimientos para el crecimiento personal y
profesional.
1. Introducción
Actualmente la organización moderna requiere la
recopilación de datos como parte fundamental para el
crecimiento de económico y mantener relaciones por tal
motivo se requiere la consulta de tecnologías de punta que
ayuden a optimizar la búsqueda de datos relevante para
alcanzar objetivos a corto, mediano y largo plazo. Por tal
importancia se realiza la consulta de tecnologías en el
manejo de las bases de datos que han sido uso de
herramientas indispensable para ofrecer soluciones para lo
cual se plantean los siguientes objetivos:
Objetivo Principal:
 Conocer las estructuras de las nuevas tecnologías en
bases de datos
Objetivo Secundario
 Consultar sobre tecnologías relacionadas con Big
Data
2. ¿Qué es Big data?
Desde el surgimiento de las primeras formas de bases de
datos hasta los nuevos centros de datos modernos; las
organizaciones no han dejado de recopilar información. El
crecimiento del sectortecnológico ha provocado el aumento
1 Tomado de https://es.wikipedia.org/wiki/Big_data
en forma de crecimiento exponencial de la recopilación de
datos porlo que es necesario sistemas de almacenamiento de
datos más sofisticados.
Big Data; es un término aplicado a conjuntos de datos que
superan la capacidad del software habitual para ser
capturados, gestionados y procesados en un tiempo
razonable. Los tamaños del “Big Data” se hallan
constantemente en aumento.
4. ¿Tipos de datos “Big data”?
a. Datos estructurados: datos que tienen bien definidos su
longitud y su formato, como las fechas, los números o las
cadenas de caracteres. Se almacenan en tablas. Un ejemplo
son las bases de datos relacionales y las hojas de cálculo.
b. Datos no estructurados: datos en el formato tal y como
fueron recolectados,carecen de un formato específico. No se
pueden almacenar dentro de una tabla ya que no se puede
desgranar su información a tipos básicos de datos. Algunos
ejemplos son los PDF, documentos multimedia, correos
electrónicos o documentos de texto.
c. Datos semiestructurados:datos que no se limitan a campos
determinados, pero que contiene marcadores para separar los
diferentes elementos. Es una información poco regular como
para ser gestionada de una forma estándar. Estos datos
poseen sus propios metadatos semiestructurados19 que
describen los objetos y las relaciones entre ellos, y pueden
acabar siendo aceptados por convención. Un ejemplo es el
HTML, el XML o el JSON.1
3. ¿Tecnologías de Big Data?
Las tecnologías para gestionar los mega datos son algunos
ejemplos: Hadoop, NoSQL, Cassandra, sobre las cuales
realizaremos la consulta
3.1 Hadoop: La historia de Hadoop está necesariamente
unida a la de Google. De hecho, podría decirse que Hadoop
nace en el momento en que Google precisa urgentemente de
una solución que le permita continuar procesando datos al
ritmo que necesita,en una proporción que repentinamente ha

crecido de forma exponencial.2 Esta solución, que
posteriormente se denominará Hadoop, se basa en un gran
número de pequeños ordenadores,cada uno de los cuales se
encarga de procesar una porción de información. La
grandiosidad del sistema es que, a pesar de que cada uno de
ellos funciona de forma independiente y autónoma, todos
actúan en conjunto, como si fueran un solo ordenador de
dimensiones increíbles. En 2006, Google publica todos los
detalles acerca de su nuevo descubrimiento,compartiendo su
conocimiento y experiencia con todos los usuarios que
anhelaban acceder a esta información. Entre el conjunto de
beneficiarios, destaca el interés de la comunidad Open
Source que,apasionados porla idea y el nuevo horizonte que
se abre frente a ellos, explotan sus posibilidades
desarrollando una implementación a la que denominan
Hadoop.
3.2 NoSQL: En informática, NoSQL (a veces llamado "no
sólo SQL") es una amplia clase de sistemas de gestión de
bases de datos que difieren del modelo clásico de SGBDR
(Sistema de Gestión de Bases de Datos Relacionales, en
inglés, RDBMS) en aspectos importantes, siendo el más
destacado que no usan SQL como lenguaje principal de
consultas. Los datos almacenados no requieren estructuras
fijas como tablas, normalmente no soportan operaciones
JOIN, ni garantizan completamente ACID (atomicidad,
consistencia, aislamiento y durabilidad), y habitualmente
escalan bien horizontalmente. Los sistemas NoSQL se
denominan a veces "no sólo SQL" para subrayarel hecho de
que también pueden soportar lenguajes de consulta de tipo
SQL3.
Ventajas:
 Estos sistemas responden a las necesidades de
escalabilidad horizontal que tienen cada vez más
empresas.3
 Pueden manejar enormes cantidades de datos.
 No generan cuellos de botella.
 Escalamiento sencillo.
 Diferentes DBs NoSQL para diferentes proyectos.
 Se ejecutan en clusters de máquinas baratas
Desventajas:
 Las bases de datos NoSQL al ser de código abierto
poseen un soporte diferente al soporte que ofrecen
las compañías comerciales a sus productos. La
comunidad open source, si bien podría respondera
cualquier problema, posiblemente se puedan tardar
más que una compañía comercial de código
propietario.
 No están lo suficientemente maduros para algunas
empresas. - A pesar de sus puestas en práctica en
algunas grandes empresas, las bases de datos
NoSQL aún se enfrentan a un problema de
credibilidad importante con muchas empresas. Los
2 Tomado de http://blog.powerdata.es/el-valor-de-la-
gestion-de-datos/bid/328879/c-mo-se-relacionan-big-data-
y-hadoop
3 Referencia de https://es.wikipedia.org/wiki/NoSQL
críticos señalan la falta de madurez de NoSQL y los
posibles problemas de inestabilidad, mientras que
citan la madurez, y una gran funcionalidad y
estabilidad de los RDBMSes.
 Limitaciones de Inteligencia de Negocios. - Hay
una o dos cuestiones acerca de las capacidades de
BI de las bases de datos NoSQL. ¿Pueden estas
bases de datos proporcionar la clase de minería de
datos rigurosos que las empresas se utilizan con las
RDBMSes? ¿Cuántos conocimientos de
programación se necesitan para hacer la consulta ad
hoc y análisis?. Las respuestas no son precisamente
positivas. Las bases de datos NoSQL no tienen
muchos ganchos para el uso general de
herramientas de BI, mientras que la más simple
consulta ad-hoc y análisis implica conocimientos de
programación bastante buenos. Sin embargo, las
soluciones están disponibles. Quest Software, por
ejemplo, ha creado Toad para bases de datos en la
nube, que proporciona capacidades de consulta ad-
hoc para algunas bases de datos NoSQL.
 La falta de experiencia. - La novedad de NoSQL
significa que no hay una gran cantidad de
desarrolladores y administradores que conocen la
tecnología -lo que hace difícil a las empresas
encontrar personas con los conocimientos técnicos
apropiados. Por el contrario, el mundo RDBMS
tiene miles de personas muy cualificadas.
 Problemas de compatibilidad. - A diferencia de las
bases de datos relacionales, que comparten ciertos
estándares,las bases de datos NoSQL tienen pocas
normas en común. Cada base de datos NoSQL tiene
su propia API, las interfaces de consultas sonúnicas
y tienen peculiaridades. Esta falta de normas
significa que es imposible cambiar simplemente de
un proveedor a otro, por si no quedara satisfecho
con el servicio.
3.3 Cassandra: Apache Cassandra es una base de datos
NoSQL distribuida y basada en un modelo de
almacenamiento de «clave-valor», de código abierto que está
escrita en Java. Permite grandes volúmenes de datos en
forma distribuida. La cual posee las siguientes
características4.
 Descentralizado: Todos los nodos delclúster tienen
el mismo rol. No hay un único punto de fallo. Los
datos se distribuyen a través del clúster (por lo que
cada nodo contiene datos diferentes). No existe un
nodo maestro por lo que cada nodo puede dar
servicio a cualquier solicitud.
 Soporta replicación y replicación de múltiples data
center: Las estrategias de replicación son
configurables .22 Cassandra está diseñado como un
sistema distribuido, para el despliegue de un gran
número de nodos a través de múltiples centros de
4 Tomado de
https://es.wikipedia.org/wiki/Apache_Cassandra#Caracter.
C3.ADsticas_principales

datos.La arquitectura distribuida de Cassandra está
diseñado para desplegarse sobre múltiples data
center, tener redundancia y recuperarse ante
desastres.
 Escalabilidad: El rendimiento de leer y escribir
aumenta linealmente a medida que se añaden
nuevos nodos.Se pueden agregar nuevos nodos sin
necesidad de interrumpir la ejecución de la
aplicación.
 Tolerancia a fallos: Los datos se replican
automáticamente a múltiples nodos para
recuperarse frente a fallos. Cassandra soporta
replicación a través de múltiples datacenter. Se
puede reemplazar nodos que presenten fallos sin
tiempo de inactividad o interrupción de la
aplicación.
 Consistencia: Se ofrece la elección del nivel de
consistencia para las lecturas y escrituras.
7. Conclusiones
Durante el desarrollo de la consulta se plantean objetivos de
estudio sobre las nuevas tecnologías que aplican las bases
de datos modernas con el fin de adquirir conocimiento para
el desarrollo profesional y en un futuro aplicar los
conocimientos para el beneficio de la organización moderna.
8. Agradecimientos
Por último, agradecer al tutor Wilson Perez Correa de la
Universidad nacional a distancia que realiza un excelente
trabajo como mediador para que los estudiantes despierten la
curiosidad de adquirir nuevos conocimientos en su vida
profesional para ser eficientes en proveer soluciones a las
necesidades que se presenta en el entorno con mira siempre
al desarrollo, y a la consulta de lo que se requiere hoy en día
para el avance tecnológico.
Referencias
[1] Big data articulo 2017 de encyclopedia Wikipedia
https://es.wikipedia.org/wiki/Big_data

Laboratorio 3 formato ieee "Tecnologias de Big Data"

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Laboratorio 3 formato ieee "Tecnologias de Big Data"

Similar a Laboratorio 3 formato ieee "Tecnologias de Big Data" (20)

Último

Último (20)

Laboratorio 3 formato ieee "Tecnologias de Big Data"