SlideShare una empresa de Scribd logo
1 de 29
Descargar para leer sin conexión
1
UNIVERSIDAD YACAMBÙ
VICERRECTORADO DE
INVESTIGACIÒN Y
POSTGRADO
INSTITUTO DE
INVESTIGACIÓN Y
POSTGRADO
Cronograma de evaluación:
Herramientas Web para la
Ciencia y Tecnología
TUTORA
Dra. Lisbeth Campins
TEMAS
Características y tipos de
bases de datos
ESTUDIANTE
Carlos Frankie Mesias Rodriguez
Esmeraldas Ecuador Nov 7 del 2020
2
Características y tipos de bases de datos
Las características de las bases de datos y las soluciones que existen hoy en día
Existe mucha información acerca de las bases de datos, por lo tanto el objetivo de este
artículo no es hacerlo un experto en el tema sino solo ser una guía de los conceptos que
se manejan actualmente, conocer brevemente las características de las bases de datos y
las soluciones que existen hoy en día.
¿Qué es una base de datos?
De una manera simple, es un contenedor que permite almacenar la información de forma
ordenada con diferentes propósitos y usos. Por ejemplo, en una base de datos se puede
almacenar información de diferentes departamentos (Ventas, Recursos Humanos,
Inventarios, entre otros). El almacenamiento de la información por sí sola no tiene un
valor, pero si combinamos o relacionamos la información con diferentes departamentos
nos puede dar valor. Por ejemplo, combinar la información de las ventas del mes de
junio del 2014 para el producto ‘X’ en la zona norte nos da un indicativo del
comportamiento de las ventas en un periodo de tiempo.
Tipos de bases de datos
Existen muchas empresas con diferentes giros y dependiendo del giro será el tipo de
procesamiento que se le dará a la información, esto determinará el tipo de base de datos
a utilizar. Existen diferentes tipos de bases de datos pero las más comunes son las OLTP
y OLAP.
Las bases de datos de tipo OLTP (On Line Transaction Processing) también son
llamadas bases de datos dinámicas lo que significa que la información se modifica en
tiempo real, es decir, se insertan, se eliminan, se modifican y se consultan datos en línea
durante la operación del sistema. Un ejemplo es el sistema de un supermercado donde
se van registrando cada uno de los artículos que el cliente está comprando y a su vez el
sistema va actualizando el Inventario.
3
Las bases de datos de tipo OLAP (On Line Analytical Processing) también son llamadas
bases de datos estáticas lo que significa que la información en tiempo real no es
afectada, es decir, no se insertan, no se eliminan y tampoco se modifican datos; solo se
realizan consultas sobre los datos ya existentes para el análisis y toma de decisiones.
Este tipo de bases de datos son implementadas en Business Intelligence para mejorar el
desempeño de las consultas con grandes volúmenes de información.
4
La necesidad de implementar un tipo u otro dependerá del giro y necesidades de cada
empresa. Es muy importante identificar el tipo de base de datos que se requiere antes
de implementar un manejador de base de datos. Por ejemplo podemos citar al manejador
de base de datos “DB2 10.5 with BLU Acceleration”, la cual proporciona una solución
para la parte transaccional y para la parte de analíticos.
Tipo de información que se puede almacenar
Cuando surgen las bases de datos el tipo de información que se podía almacenar era de
tipo estructurada. La información es almacenada en un objeto llamado “Tabla” la cual
nos permite organizar la información. Por ejemplo, la tabla de “Empleados” contiene
información relacionada al #Empleado, Nombre, Apellido, #Seguro Social, etc. Cada
uno de estos elementos en una base de datos recibe el nombre de “Campo” y el conjunto
de estos elementos recibe el nombre de “Registro” (También llamado Columna y
Renglón, Hilera o Fila).
5
Los tipos de datos que se pueden almacenar son diversos, pero los más comunes son de
tipo Numérico, Decimales y tipo Texto. Conforme han evolucionado las bases de datos
se han expandido los tipos de datos que pueden almacenar. Por mencionar algunos tipos
están los CLOB (Character Large Object) y BLOB (Binary Large Object). Los CLOB
son utilizados para almacenar documentos y los BLOB para almacenar una imagen o
video.
Otro tipo de dato relevante hoy en día es el tipo de dato XML. Este es un tipo de dato
jerárquico porque parte de un nodo inicial o raíz, y a su vez puede tener ‘n’ niveles y
subniveles. Muchos manejadores de bases de datos pueden manipular este tipo de dato;
sin embargo, no de forma nativa como lo hace DB2, es decir, el documento es
almacenado como un CLOB. La desventaja de almacenarlo como un CLOB implica
dividir el documento y guardarlo en diferentes áreas (como si fuera un rompecabezas),
y para consultarlo se debe armar para mostrar su información (lo cual implica problemas
de desempeño).
Una ventaja competitiva que tiene DB2 es que los documentos XML se almacenan de
forma nativa, es decir, el documento se almacena dentro de la base de datos, lo que
permite consultar la información de forma directa y con mucho mejor desempeño.
Incluso se pueden crear índices a nivel documento XML para consultar un nodo en
específico, y así acceder más rápido a la información. Otra ventaja es la compresión de
documento XML lo cual incrementa el ahorro en almacenamiento.
6
Existen otras bases de datos que permiten almacenar diferentes tipos de documento,
como por ejemplo: Cloudant, el cual se verá más adelante.
Con la evolución en las tecnologías de la información y las nuevas necesidades en el
manejo de la información nace el concepto Big Data. Existen diferentes definiciones,
pero la más sencilla es el manejo de grandes volúmenes de información que vienen de
diferentes fuentes de datos (Estructurados, No estructurados, XML, HTML, etc.) de una
manera rápida sin afectar la disponibilidad de la información y operación de los
sistemas. Las consultas hechas en Big Data ayudan al análisis y a la toma de decisiones.
http://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
Otra de las ventajas competitivas que tiene las bases de datos como DB2 e Informix es
que permite hacer la explotación de la información que viene de diferentes fuentes
permitiendo así la integración con otros sistemas y lenguajes que utilizan sentencias
SQL y NoSQL.
https://www.ibm.com/developerworks/ssa/library/bd-datos-sql-y-nosql-en-db2/
Información a través del tiempo
Cuando se crea una base de datos y se inicia su operación el volumen de la información
es mínima y el desempeño de la aplicación y base de datos es óptima. Sin embargo
conforme pasa el tiempo el volumen de información incrementa y en consecuencia
surgen los siguientes problemas:
7
1. Problemas de espacio en disco.
2. Incrementos de costo en almacenamiento y procesamiento.
3. Problemas de desempeño en las consultas.
4. Fallas en el aplicativo afectando la disponibilidad de los datos.
5. Problemas con la base de datos y la pérdida de información.
De los problemas anteriores surge la necesidad de hacer mejoras a las bases de datos
y/o crear arquitecturas para dar soluciones a los problemas anteriores. Se han
implementado varias soluciones a nivel Software y Hardware.
Uno de los principales problemas a solucionar es la disponibilidad y la pérdida de la
información. En DB2 existen dos soluciones, la primera evita perder la información en
caso de desastres, contingencia, etc. y la segunda evita que la disponibilidad de la
información se vea afectada, es decir, la información estará disponible 24×7 (En todo
momento). Estas soluciones son:
1. HADR (High Availability and Disaster Recovery) – Alta disponibilidad
2. PureScale – Disponibilidad continua
¿Qué es HADR?
Sus siglas en inglés significan High Availability Disaster Recovery. Es una
característica de replicación de datos que brinda una solución de Alta Disponibilidad
cuando surge una falla parcial o total en uno de los servidores principales. Es una
solución que soporta un Servidor como Primario y hasta tres Servidores como
Secundarios. Si el servidor primario falla, uno de los servidores secundarios tomará el
control y pasará a ser ahora el servidor primario. La replicación de la información se
hace a través de los archivos log de transacciones.
Ventajas
 Minimiza el impacto de interrupciones planeadas y no planeadas.
 Permite la actualización del software sin interrumpir la operación.
 Para el aplicativo es transparente, no se requiere modificar la aplicación.
 No se requiere Hardware especializado.
 Fácil administración y configuración.
8
¿Qué es PureScale?
Es una arquitectura basada en Clúster. Un Clúster es un conjunto de varios ordenadores
unidos por una red de alta velocidad, de tal forma que es visto como un solo computador
más potente. Es una característica de DB2 que reduce el riesgo y los costos del
crecimiento del negocio al proporcionar capacidad extrema, disponibilidad continua y
transparencia para el aplicativo. Capacidad extrema significa que puede crecer su
sistema como sea necesario.
Ventajas
 Evita riesgos y costos en cambios a la aplicación.
 Diseñado para sistemas que requieren de disponibilidad continua (24×7). Si uno
o varios miembros fallan, la transacción y operación del sistema continúan.
 Utiliza la misma arquitectura del indiscutible estándar de Oro, los Sistemas Z.
 Agrega o quita miembros de una manera fácil.
 No se requiere tunear la infraestructura de la base de datos.
 Balanceo automático de cargas de trabajo.
 Construido y disponible en Power Systems y servidores System x.
 El núcleo del sistema es una arquitectura de disco compartido.
9
La implementación de HADR o PureScale dependerá de las necesidades y capacidades
de cada empresa.
Otras soluciones han sido implementadas a nivel base de datos para hacer frente a los
problemas de performance. DB2 ofrece una gran variedad de alternativas para hacer
frente a los problemas de performance.
1. DPF (Database Partition Feature). Particionamiento de bases de datos.
2. Table Partitioning. Particionamiento de tablas.
3. MDC (Multi-Dimension Clustering). Convertir tablas en múltiples dimensiones.
Para tener un mejor entendimiento del tema de particionamiento se hace la analogía de
la frase “divide y vencerás”. Es el mismo principio utilizado en estas características de
DB2.
Una de las ventajas de estas características es que se hace un aprovechamiento del poder
de múltiples procesadores en múltiples nodos físicos. Los datos que son consultados o
modificados son descompuestos automáticamente y ejecutados en cada una de las
particiones. El uso de esta característica es transparente para el usuario que ejecuta
sentencias SQL.
Ventajas
10
 Menores Entradas/Salidas a disco.
 Se centra en un subconjunto de datos.
 Porciones pequeñas dividida en más procesadores.
 Disponibilidad de datos más rápido.
 Mejor administración.
 Mantenimiento fácil para pequeñas porciones de datos.
¿Qué es DPF (Data Partitioning Feature)?
Es una característica de DB2, la cual permite hacer el particionamiento de base de datos.
Con esta característica se mejora el desempeño y la escalabilidad de grandes bases de
datos. Cuando existen grandes volúmenes de información en una base de datos, esta es
una de las soluciones a implementar. Cada partición de base de datos tiene su propio
conjunto de recursos informáticos incluyendo CPU, Memoria y unidades de
almacenamiento. En un ambiente DPF los registros de cada tabla son distribuidos en las
diferentes particiones (DB2 utiliza un algoritmo para determinar en qué partición deberá
estar la información). DPF es una característica de escalabilidad.
DPF acepta diferentes configuraciones:
1. Discos compartidos.
2. Discos dedicados.
3. Permite el uso de particiones lógicas y físicas.
4. Los comandos para la administración de la base de datos son ejecutados en cada
una de las particiones de forma automática y transparente.
5. Es transparente para el aplicativo.
11
¿Qué es Table Partitioning?
Es el mismo concepto que DPF solo que esto aplica para tablas dentro de una base de
datos, es decir, es el particionamiento de los datos de una tabla en un subconjunto de
datos. En la mayoría de los casos las bases de datos conservan información de muchos
años atrás (históricos) lo que provoca que al ejecutar consultas sobre esa tabla el
desempeño se vea afectado y el consumo de los recursos sea mucho mayor.
Por ejemplo, si se ejecuta una consulta sobre un millón de registros tardará más que si
se realiza sobre 100,000 registros. Supongamos que tenemos la tabla de Ventas la cual
contiene 10 millones de registros correspondiente a las ventas de 10 años (2004,
2005…2014). Si consultamos información del año 2005 probablemente el tiempo de
espera para mostrar la información será alto. En cambio si se hace un particionamiento
de las ventas por año, al consultar la información del año 2005 el manejador de la base
de datos solo consultará sobre un millón de registros y no sobre los 10 millones de
registros. Dicho de otra manera el motor de la base de datos consultará solo la partición
donde se encentran las ventas del año 2005.
12
Ventajas
 Incremento del desempeño de las consultas.
 Mejor optimización para los costos de almacenamiento.
 Rápida creación y/o eliminación de particionamiento de datos.
 No afecta la disponibilidad de los datos al agregar o quitar particiones.
 Incremento del tamaño de las tablas. Las tablas están limitadas en almacenar un
monto máximo de datos, utilizando Table Partitioning podemos incrementar el
tamaño de la tabla mediante el uso de diferentes particiones.
¿Qué es MDC (Multi-Dimension Clustering)?
Proporciona un método elegante para permitir que los datos de una tabla puedan ser
agrupados físicamente en varias dimensiones simultáneamente de una manera flexible
y automática. Esto puede mejorar mucho el desempeño de las consultas.
Ventajas
 Reduce el gasto de mantenimiento en los datos tales como reorganizaciones y
mantenimiento de índices durante la creación, eliminación y actualización de
datos.
 Pensado inicialmente para Data Warehouse y bases de datos con grandes
volúmenes de información, pero también puede ser utilizado en bases de datos
de tipo OLTP.
En ambientes Data Warehouse normalmente las consultas se hacen sobre grandes
volúmenes de información lo que conlleva a tener problemas en los tiempos de
respuesta. Las consultas que se realizan siempre van relacionadas con fechas, cálculos,
productos, regiones, tipos, áreas geográficas, etc. Por ejemplo, si nuestras consultas de
Ventas siempre son por “Fecha”, “Tipo de producto” y “Forma de pago” entonces
podemos hacer el uso de MDC para la tabla de Ventas para poder tener un mejor
desempeño durante las consultas. Cuando nosotros realicemos una consulta filtrando
por “Fecha del producto” el manejador de la base de datos utilizará solo una dimensión
(un segmento de datos). Si en nuestra consulta utilizamos los filtros por “Fecha de
venta” y “Tipo de producto” entonces el manejador de la base de datos utilizará dos
dimensiones (dos Segmentos de datos) y así sucesivamente. Similar a DPF el motor de
la base de datos consultará segmentos específicos de datos incrementando el desempeño
en las consultas.
13
Es importante mencionar que podemos hacer una combinación de todas estas
características para enfrentar a los problemas que nos enfrentamos cuando hacemos
consultas sobre grandes volúmenes de información. Hoy en día ya existen otras
optimizaciones que se han hecho al motor de DB2, el cual se podrá ver más adelante.
El segundo punto importante son los problemas comunes a los que se enfrentan las bases
de datos y las empresas, el incremento de los volúmenes de información. Del lado de
las bases de datos implica problemas de desempeño al hacer consultas sobre grandes
volúmenes de información y del lado de la compañía implica incrementos en los costos
de almacenamiento. De aquí surge la necesidad de implementar nuevos mecanismos
para reducir los tiempos y costos, y es aquí donde surge el tema de la compresión de
datos.
¿Qué es la Compresión de datos?
Es básicamente la reducción del volumen de información utilizando la menor cantidad
posible de espacio. Hay muchas técnicas y algoritmos que se han implementando en las
bases de datos, sin embargo una ventaja competitiva de DB2 es que adicionalmente
incluye la compresión de los distintos tipos de objetos.
1. Compresión de registros.
2. Compresión de tablas.
3. Compresión de Índices.
4. Compresión de tablas temporales.
5. Compresión de objetos e imágenes.
6. Compresión de documentos XML.
7. Compresión de Log de transacciones.
8. Compresión de backup.
En este tema se ha avanzado mucho pero DB2 tiene el liderazgo. Ahora con el nuevo
concepto de bases de datos en memoria y con almacenamiento por columnas se puede
lograr mayores tasas de compresión, mejores a las que ya se venían obteniendo en
versiones previas.
http://www.ibm.com/developerworks/ssa/data/library/DB2BLU/
14
Ventajas
 Reduce los costos de almacenamiento.
 Incrementa la performance en las consultas.
 Reduce la Entrada/Salida al disco.
 Reduce costos de energía.
 Trabaja con datos en memoria y con datos comprimidos.
En la siguiente figura se muestra un ejemplo de cómo se realiza la compresión con base
a patrones de repetición. Para la compresión de datos se utiliza un diccionario donde se
almacenará un digito en hexadecimal que representará los datos que se repiten. Estos
dígitos en hexadecimal reemplazarán a los datos en la tabla.
Uno de los costos más altos y relevantes es cuando consultamos información con acceso
a discos. Dependiendo de las características del disco será la velocidad con que los datos
serán recuperados por la base de datos y devueltos al usuario final. Al comprimir datos
se reducen las Entradas/Salidas al disco, debido a que con menos acceso al disco, se
obtendrán mayores volúmenes de información. Existen diferentes tipos de discos, los
discos duros o también llamados discos rígidos que son discos de almacenamiento de
datos no volátil, que emplean un sistema de grabación magnética para almacenar datos
digitales; y los discos de estado sólido conocidos como SSD (Solid State Disk) que es
un dispositivo de almacenamiento de datos que puede estar construido con memoria
volátil y no volátil. Estos discos son muy rápidos y consumen menos energía y la
tendencia indica que en un futuro sustituirán a los discos duros. Su principal
inconveniente es que son caros.
15
¿Qué es un Data Warehouse?
Es un almacén de datos que es utilizado para explotar grandes volúmenes de
información (entre ellos información histórica) para efectos de análisis que ayuden a la
toma de decisiones en las grandes empresas. Las bases de datos orientadas a Data
Warehouse no contienen datos actuales, es decir, no es una base de datos transaccional
OLTP, es un tipo de base de datos OLAP. Se ha mencionado que las bases de datos
tienen muchos retos y uno de ellos es que no se puede utilizar la misma base de datos
para transacciones y para efectos de análisis. Esto no se puede realizar por las limitantes
que se pueden tener con el Hardware, Software, Memoria, dispositivos de
almacenamiento, procesadores, etc. Debido a lo anterior se debe especificar qué tipo de
base de datos debemos utilizar (OLTP u OLAP).
Con las nuevas necesidades y el avance tecnológico se han modificado las bases de
datos y también se han creado nuevas arquitecturas de solución (DB2 10.5 with BLU
Acceleration, Informix, PureData for Analytics entre otros).
Las empresas cuando toman la decisión de crear un Data Warehouse deben realizar un
profundo análisis de la información que desean analizar y conocer cuales serán los datos
a migrar. Los datos que alimentan a un Data Warehouse pueden venir de diferentes
fuentes e incluso de diferentes proveedores de bases de datos. Para hacer la integración
de la información se requieren herramientas que nos permitan hacer la concentración
de la información en el Data Warehouse. Las herramientas son variadas y existen
diferentes proveedores, estas son conocidas como herramientas ETL.
¿Qué es un ETL?
Sus siglas en inglés significan Extract Transform Load. Extract es el proceso de extraer
la información que puede venir de diferentes fuentes de datos o bases de datos de
distintos proveedores. Por ejemplo, consolidar los presupuestos de México y Canadá,
cuya información está almacenada en una base de datos Informix y MySQL
respectivamente. A través de una conexión vía ODBC puede hacer la extracción de la
información para concentrarla en el Data Warehouse.
Transform es el proceso de transformar los datos que se están extrayendo antes de ser
almacenados en el Data Warehouse. Tomando el ejemplo anterior, la transformación
sería hacer los cálculos de los presupuestos de México y Canadá por año, mes y región.
Por último, el Load es el proceso de la carga de los datos ya transformados hacia el Data
Warehouse. En el ejemplo anterior estamos almacenando los presupuestos ya
calculados de las regiones México y Canadá por año, mes y región.
16
Una herramienta que ayuda en este tipo de actividades es el producto de IBM
InfoSphere DataStage.
http://www-03.ibm.com/software/products/en/ibminfodata/
¿Qué es un Data Mart?
Es simplemente un subconjunto de datos de un Data Warehouse para un área específica.
En un Data Warehouse se tiene la información concentrada de una empresa y de todos
los departamentos. Los Data Mart nos permiten hacer una separación de los datos para
funciones específicas, usuarios específicos y áreas específicas. La información que
alimenta a un Data Mart también pueden provenir de una base de datos transaccional.
Esta es una de las nuevas características del producto DB2 10.5 with BLU Acceleration.
La administración simple de DB2 10.5 with BLU Acceleration permite generar Data
Mart de una forma rápida para ser capaz de reaccionar a los requerimientos del negocio.
DB2 también permite la ejecución de reportes analíticos en tiempo real para ayudar a la
toma de decisiones.
17
¿Qué modelo de datos se utiliza en un Data Warehouse o Data Mart?
El modelo de datos que se utiliza en una base de datos de tipo OLTP es un modelo
relacional donde existe una relación de datos de cero a uno, de uno a uno y de uno a
muchos. Para relacionar y explotar la información en un modelo relacional se requiere
de la creación de índices primarios y compuestos que en un ambiente Data Warehouse
no es viable por el volumen de información que se utiliza. Los bases de datos para Data
Warehouse o Data Mart manejan muchos volúmenes de información y dependiendo del
diseño de cada una de estas, los datos ya estarán calculados o precalculados lo que
permite que los tiempos de respuestas sean mucho mejor. Uno de los modelos
comúnmente utilizados es el modelo Star Schema o un esquema en estrella. Un esquema
en estrella es aquel que tiene una tabla de hechos también llamada Fact Table y
alrededor sus dimensiones. Las dimensiones están relacionadas a la tabla de hechos a
través de una llave primaria. Este tipo de esquema es ideal para bases de datos de tipo
OLAP y Data Mart por su simplicidad y la velocidad para hacer análisis. DB2 tiene
muchas optimizaciones internas para hacer el uso de este tipo de esquemas. Por ejemplo
ha implementado el uso del nuevo método Zigzag.
18
Informix Warehouse Accelerator – IWA
Sus siglas en inglés son Informix Warehouse Accelerator el cual es un optimizador
de cargas de trabajo que permite la integración en los procesos operacionales para
conducir estrategias ganadoras. Acelera las consultas con tiempos de respuestas
sin precedentes. El IWA es una tecnología de vanguardia para mejorar el
performance y ofrece las siguientes capacidades:
1. Compresión extrema necesaria porque la memoria RAM es el factor limitante.
2. Base de datos por renglón para cargas de datos transaccionales (OLTP) y por
Columna para accesar a datos vía el acelerador para OLAP.
3. Tercera generación de bases de datos en memoria. Evita la Entrada/Salida al
disco debido a que la compresión permite tener los datos residentes en memoria.
4. Frecuencia de particionamiento. Habilitado para el acceso efectivo de los datos
comprimidos.
5. Paralelismo masivo. Todos los procesadores son utilizados en las consultas.
6. Evaluación de predicados con datos comprimidos lo que incrementa el
desempeño en las consultas.
7. Actualización automática a nivel de partición lo cual permite refrescar en los
Data Mart solo los datos que han cambiado.
8. Soporte para datos de series de tiempos. Se pueden analizar en memoria los datos
que vienen de censores inteligentes, medidas, localización GPS, u otros
dispositivos en tiempo real.
19
¿Qué son los PureSystem?
Son una nueva clase de sistemas integrados expertos que están diseñados, prefabricados,
configurados y optimizados para ejecutar cargas de trabajo muy complejas y
especificas. Las ventajas que ofrecen este tipo de sistemas son:
1. Construido con base a la colección de conocimientos colectivos de miles de
implementaciones, mejores practicas, experiencia de socios de negocios y
proveedores.
2. Integrados por diseño. Todos los componentes de Hardware y Software están
perfectamente integrados y sincronizados para las cargas de trabajo que va a
ejecutar.
3. Proporciona una perfecta sincronía entre el Hardware y Software ya que vienen
previamente diseñados, integrados, configurados. Al instalarlo y conectarlo a la
red usted tiene un sistema listo para operar.
4. Se obtiene valor en cuestión de días ya que la experiencia de los expertos está
incorporada junto con la integración de los sistemas.
Familia de los PureSystem
20
Existen tres familias de PureSystem, los cuales están diseñados para dar solución a los
problemas que enfrentan los diferentes tipos de cargas de trabajo, cambiando la
economía y la experiencia de las tecnologías de la información.
 PureFlex: Estos sistemas proporcionan servicios de infraestructura y permiten
construir su propia aplicación o entornos de infraestructura en un entorno
escalable, de alta disponibilidad y fácil de mantener. Si hay solo una plataforma
y desea construir cualquier aplicación independientemente de los sistemas que
tenga, PureFlex es la solución.
 PureApplications: Esta basado en los mismos principios de PureFlex y
proporciona servicios de plataforma. Se integra todo el Software y las
herramientas que se necesitan para construir una plataforma de aplicaciones
altamente escalable. El objetivo es ofrecer una plataforma de aplicaciones tipo
Web. Si usted tiene aplicaciones Web o aplicaciones que utilizan memoria y
tienen interacción con la base de datos entonces PureApplications es la solución.
 PureData: Por ultimo, estos sistemas son desarrollados para ofrecer servicios de
datos a las aplicaciones independientemente de que se trate de aplicaciones
transaccionales como punto de venta o CRM, o sistemas de análisis como
perdida de clientes y/o administración de campañas. Para datos específicos,
aplicaciones OLTP, aplicaciones y sistemas de análisis profundo entonces
PureData es la solución.
Cuando hablamos de los sistemas PureData tenemos diferentes dispositivos PureData,
porque sus aplicaciones de datos, el acceso a los tipos de datos y las transacciones son
muy diferentes. Y es aquí donde se ofrecen nuevos dispositivos.
21
Sistemas PureData para Hadoop
Este dispositivo está optimizado para almacenar, catalogar, analizar y transformar
grandes volúmenes de información en muchos formatos diferentes. También se puede
utilizar para mantener mayores datos relacionados que se acceden con menor frecuencia
desde un Data Warehouse, por lo tanto mantiene un fácil acceso sin ocupar espacio y
recursos en el Data Warehouse. Optimizado también para el analizar archivos en línea.
Sistemas PureData para transacciones
Este dispositivo está diseñado para el comercio electrónico, comercio Web
transaccional. Como por ejemplo, las aplicaciones puntos de venta donde se escanea un
código y a través de él se determina su precio. También conocido como servicios de
cluster de bases de datos optimizado para el rendimiento y escalabilidad transaccional.
Sistemas PureData para analíticos
22
Este dispositivo tiene una optimización diferente debido a que hay una interacción con
la base de datos, con la memoria, y optimiza de forma diferente las cargas de trabajo
para análisis y Data Warehouse. Esto es para aplicaciones como el análisis de clientes,
análisis predictivo, alta velocidad de análisis en datos (petabyte) con la máxima
simplicidad. Esto está desarrollado con la Tecnología de Netezza. El sistema N200x
sigue ofreciendo:
1. Mismas optimizaciones para grandes volúmenes de datos.
2. Ninguna administración táctil.
3. Más de 150 funciones analíticas optimizadas.
4. Rendimiento optimizado de análisis de Big Data.
5. Administración sencilla para un despliegue rápido y fácil.
6. Tres veces más rápido que el modelo N1001.
7. 50% más de capacidad de datos por rac. Esto ayuda a optimizar la eficiencia del
Data Center sin incrementar la potencia o los requisitos de refrigeración.
Sistemas PureData para análisis de operaciones
Este dispositivo da una solución como mezcla de la información de lo que usted tiene,
lo que usted sabe y los análisis, pero usted tiene búsquedas puntuales. Por ejemplo, si
usted esta buscando la detección de un fraude en tiempo real en el que está haciendo
profundas exploraciones a muchos datos e identifica que puede haber problema en
algunos registros, usted luego realiza una búsqueda puntual a esos registros. Está
optimizado para equilibrar el alto rendimiento para el análisis de datos y optimizado
para equilibrar el rendimiento operativo en tiempo real.
https://www.ibm.com/support/pages/welcome-puredata-system-operational-analytics-
support
Cuando se tiene un número de consultas puntuales de tipo transaccional se debe inclinar
hacia los sistemas PureData para Análisis de Operaciones. Si necesita consultas muy
complejas de alta velocidad entonces se debe inclinar por PureData para Analíticos
(Este es el sistema basado en Netezza).
La tendencia – Bases de datos en Memoria
Como hemos visto, conforme pasa el tiempo las necesidades del negocio cambian y
crecen, por lo tanto se han agregado nuevas características a las bases de datos para
hacer frente a los problemas de alta disponibilidad, desempeño, seguridad, ahorros en
almacenamiento, etc. Uno de los recursos más costoso es el almacenamiento de la
información y hoy con el nuevo concepto de Big Data la necesidad de manejar grandes
volúmenes de información se ha incrementado. El acceso a disco es el acceso más lento
para obtener la información. Actualmente el costo de la memoria ha disminuido y la
tendencia es hacer un mejor uso de la misma porque se ha demostrado que el área
principal de una base de datos para obtener un mejor desempeño es la memoria, al tener
los datos en memoria, el acceso a la información se realiza de una manera más rápida.
Las bases de datos cuando buscan la información en el disco para después subirla a
memoria, generan cuellos de botella, esto dependerá también del tipo de disco que se
tenga. En la sección previa se comentó que el uso de discos de estado sólido SSD es
23
también la tendencia, pero por el momento son muy costosos y no es una solución viable
para muchas empresas.
Para hacer frente al mejor uso de la memoria y entregar mejores resultados en bases de
datos OLAP, en DB2 e Informix se han agregado nuevas características que permiten
no solo tener los datos en memoria sino que también permite obtener mayores tasas de
compresión de datos, lo cual permite manipular mayores volúmenes de información. La
tendencia es tener más datos en memoria de manera comprimida, con lo anterior se
reduce el acceso a disco y se incrementa el desempeño para el análisis de la información.
Tipos de OLAP
ROLAP
Sus siglas en inglés significan Relational OLAP. En ROLAP los datos son almacenados
en un Star Schema con tablas de Hechos y Dimensiones. Las consultas SQL analíticas
tienen un gran número de Joins, Scan y enormes cantidades de datos agregados. Por
ejemplo DB2 Cube Views y Cognos Framework Manager with Relational Datasource.
MOLAP
Sus siglas en inglés significan Multidimentional OLAP. Es la descripción de un servidor
OLAP que almacena el cubo completo OLAP en memoria. Normalmente los agregados
son precalculados y almacenados en memoria. Esto trae como resultado respuestas muy
rápidas a consultas de datos y permite una alta concurrencia en ejecución de consultas.
Ejemplo Cognos Power Cubes, Cognos TM1 y Essbase.
24
HOLAP
Sus siglas en inglés significan Hybrid OLAP. Como sus siglas lo indican es una
combinación de ROLAP Y MOLAP. Combina muchas de las características de ROLAP
Y MOLAP donde no existe límite del tamaño de datos como ROLAP y proporciona
todas las capacidades para obtener detalles de la información, con una alta concurrencia
y alto rendimiento para los datos solicitados. Si los datos solicitados están en cache no
se realiza la consulta en la base de datos, de lo contrario la consulta se ejecutará en la
base de datos. Ejemplos Cognos 10.1.1 DMR y Cognos Dynamic Cubes.
25
¿Qué es IBM BLU Acceleration for Cloud?
Es una solución de Data Warehouse y Análisis en la Nube. El concepto de Nube de una
manera simple son los servicios informáticos que se ofrecen a través de Internet. Una
de las ventajas de estas arquitecturas es que las empresas ya no requieren de una
infraestructura propia y permite a los usuarios accesar a las aplicaciones desde cualquier
punto donde se encuentren. Para los programadores permite el rápido desarrollo de
aplicaciones.
¿Qué es Cloudant?
Es una base de datos como servicio (DBaaS) la cual permite centrarse en el desarrollo
rápido de aplicaciones en Internet y aplicaciones móviles en lugar de preocuparse por
la expansión y gestión de la base de datos por su cuenta. Tiene alta disponibilidad, es
duradera y contiene amplias funciones. El almacén de datos se construye para la
escalabilidad y está optimizada para lecturas y escritura de datos simultáneas. Maneja
también una amplía variedad de tipos de datos estructurados y no estructurados entre
ellos JSON, textos completos y geoespacial.
26
https://cloudant.com/
La base de datos Cloudant es la primera plataforma de gestión de datos para aprovechar
la disponibilidad, escalabilidad, y el alcance de la Nube para crear una red de
distribución global de datos (DDN) que permita a las aplicaciones estar disponibles para
los usuarios donde quiera que se encuentren.
¿Qué es JSON?
Sus nomenclaturas en inglés significan JavaScript Object Notation, el cual es un
formato ligero para el intercambio de datos. JSON está basado en un subconjunto del
lenguaje de programación JavaScript. Su simplicidad ha hecho que su uso se esté
ampliando, algo similar al manejo de datos tipo XML donde es fácil de implementar,
de leer y de utilizar. También es independiente del lenguaje de programación ya que
muchos lenguajes tienen características para mapear con JSON. Se emplea en ambientes
donde el flujo de los datos es de vital importancia como por ejemplo Google, Yahoo,
etc. que atienden a millones de usuarios. JSON está soportado en DB2 10.5 e Informix
12.1 con el cual se permite guardar, consultar y actualizar documentos. Combina datos
desde otros sistemas con datos tradicionales en la misma base de datos, como por
ejemplo las aplicaciones Web o móviles. JSON da el poder a los programadores de
reducir la dependencia de las tecnologías de la información, es decir, no se necesitan
crear esquemas y tampoco tablas. Ejemplo de un simple documento:
27
La importancia de JSON es que ayuda a habilitar la nueva era de aplicaciones móviles,
sociales y Nube convirtiéndose así en uno de los lenguajes para la Web. Solo soporta
seis tipos de valores y son:
1. Cadena (String)
2. Numérico
3. Booleano
4. Valores especiales como el valor “nulo”
5. Objetos
6. Arreglos
No soporta estructuras de datos cíclicos, es decir, utilizar un conjunto de acciones que
se pueden ejecutar una o varias veces (Para “For 1 to 10…” , Mientras “While v_cont
100…”, Repetir “Repeat … ” ).
Internet de las cosas (IoT)
Hoy, el mundo esta híper conectado con diferentes fuentes de información (redes
sociales, unidades móviles, censores y todo lo que está a nuestro alrededor) lo que está
provocando estar en contacto con mucha información. Todo este mundo de información
hace el Internet de cosas creando nuevas oportunidades en muchas áreas. El objetivo no
es almacenar grandes volúmenes de información sino actuar sobre la misma a través del
análisis de una forma rápida para el aprovechamiento de la misma. El objetivo es darle
valor a la información para ofrecer lo que quiere el consumidor, para identificar fraudes,
optimizar reabastecimiento de inventarios, etc. El Internet esta accesible 24×7 los 365
días del año y la información está ahí como una oportunidad de hacer negocio. Este
mundo de información no puede ser explotada por cualquier manejador de base de datos
lo cual hace complicado el manejo y análisis de este mundo de información. Las razones
son las siguientes:
1. Los datos son generados de diferentes sistemas, con formatos complejos,
diferentes fuentes y tipos de datos, estructurados, no estructurados y vienen de
diferentes contextos.
2. Son difíciles de analizar por el volumen de información, requieren más
procesamiento, modelado de datos, análisis complejo de textos y correlación de
datos a través de los distintos sistemas.
3. Usted necesita ser capaz de visualizar la información para actuar sobre ella. Se
requieren sofisticados algoritmos de búsqueda para tomar decisiones.
IBM Informix – Base de datos inteligente para IoT
IBM Informix es una base de datos inteligente para resolver los problemas de IoT. Sus
características únicas le permiten que funcione en dispositivos periféricos y también en
la Nube. En la Nube, Informix tiene la escalabilidad y el rendimiento para servir como
plataforma de análisis avanzados que consolidan la información de millones de
dispositivos. También tiene la capacidad de proporcionar inteligencia local:
Consolidación de datos locales, análisis y toma de decisiones locales, tiene el
almacenamiento en cache si es necesario, el control y la replica a la nube para copias
28
de seguridad y recuperación. Donde quiera implementarlo obtendrá facilidad de uso,
estabilidad y un conjunto de características que la convierten en la solución de base de
datos “Simplemente Potente” para Internet.
Conclusión
El tema de bases de datos es muy amplio de explorar y difícil de seleccionar cuál es la
mejor arquitectura a utilizar. Normalmente se separan las bases de datos para
operaciones Transaccionales y para Analíticos. Es necesario hacer un buen análisis del
tipo de operación que se va a ejecutar en la base de datos para poder elegir la
arquitectura más adecuada y así realizar un buen uso de las capacidades de las bases de
datos para obtener los mejores resultados. Para las compañías es difícil mantener un
equilibrio entre invertir en Hardware y Software. Ya hemos visto diferentes tipos de
soluciones que se adaptan a los distintos giros de empresas. La compresión de datos, el
manejo de grandes volúmenes de información (Estructurados y No Estructurados),
datos en memoria, lenguajes de programación que utilizan sentencias SQL y NoSQL,
sistemas híbridos (Transaccionales y Analíticos), reducción de costos de
almacenamiento y los tiempos mínimos de respuesta para obtener un resultado han sido
los motivos para el desarrollo de nuevas arquitecturas a nivel Software y Hardware.
29
Referencias
DB2 with BLU Acceleration
DB2 PureScale
DB2 High Availability
Data Warehouse Analytics
Big Data and Analytics
PureSystem

Más contenido relacionado

La actualidad más candente

La actualidad más candente (18)

Base de datos
Base de datosBase de datos
Base de datos
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Informatica Base de datos
Informatica Base de datosInformatica Base de datos
Informatica Base de datos
 
Trabajo de marco
Trabajo de marcoTrabajo de marco
Trabajo de marco
 
¿Qué es una base de datos?
¿Qué es una base de datos?¿Qué es una base de datos?
¿Qué es una base de datos?
 
L7 Capitulo 1 y 2 Maria V. Nevado C.
L7 Capitulo 1 y 2 Maria V. Nevado C.L7 Capitulo 1 y 2 Maria V. Nevado C.
L7 Capitulo 1 y 2 Maria V. Nevado C.
 
Repaso
RepasoRepaso
Repaso
 
Introducción a las bases de datos UOC
Introducción a las bases de datos UOCIntroducción a las bases de datos UOC
Introducción a las bases de datos UOC
 
Presentacion Bases de datos
Presentacion Bases de datosPresentacion Bases de datos
Presentacion Bases de datos
 
Unidad 1 base de datos 1 de ibm
Unidad 1 base de datos 1 de ibmUnidad 1 base de datos 1 de ibm
Unidad 1 base de datos 1 de ibm
 
Bases de Datos
Bases de DatosBases de Datos
Bases de Datos
 
Guia de Base de Datos Unidad 1. Lissette T
Guia de Base de Datos Unidad 1. Lissette TGuia de Base de Datos Unidad 1. Lissette T
Guia de Base de Datos Unidad 1. Lissette T
 
Base de datos
Base de datosBase de datos
Base de datos
 
HISTORIA DE LAS BASES DE DATOS
HISTORIA DE LAS BASES DE DATOSHISTORIA DE LAS BASES DE DATOS
HISTORIA DE LAS BASES DE DATOS
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
base de datos definicion.caracteristicas.base de datos relacional
 base de datos definicion.caracteristicas.base de datos relacional base de datos definicion.caracteristicas.base de datos relacional
base de datos definicion.caracteristicas.base de datos relacional
 
Sofwares que se aplica en las areas de trabajo
Sofwares que se aplica en las areas de trabajoSofwares que se aplica en las areas de trabajo
Sofwares que se aplica en las areas de trabajo
 

Similar a 1 caracteristicas y_tipos_de_bases_de_datos

Actividad 3 producto final
Actividad 3 producto finalActividad 3 producto final
Actividad 3 producto finalKARLALOK
 
Base de datos (conceptos básicos )
Base de datos (conceptos básicos )Base de datos (conceptos básicos )
Base de datos (conceptos básicos )juandavid1118
 
Tipos de BDD y SGBD
Tipos de BDD y SGBDTipos de BDD y SGBD
Tipos de BDD y SGBDkarina maita
 
Proveedor[1]..
Proveedor[1]..Proveedor[1]..
Proveedor[1]..blaze0002
 
Presentacion Base de Datos, Odalys Vasquez
Presentacion Base de Datos, Odalys VasquezPresentacion Base de Datos, Odalys Vasquez
Presentacion Base de Datos, Odalys Vasquezodalys2562
 
Base de Datos - Yaiberth Bravo
Base de Datos - Yaiberth BravoBase de Datos - Yaiberth Bravo
Base de Datos - Yaiberth BravoYaiberth
 
Base de datos presentacion
Base de datos presentacionBase de datos presentacion
Base de datos presentacionValmore Medina
 
Introduccion a las Bases de Datos Relacionales
Introduccion a las Bases de Datos RelacionalesIntroduccion a las Bases de Datos Relacionales
Introduccion a las Bases de Datos Relacionalesesacre
 
Ciberconsulta -karen plata- 11-6
Ciberconsulta -karen plata- 11-6Ciberconsulta -karen plata- 11-6
Ciberconsulta -karen plata- 11-6Karen Plata
 
Unidad 3 bases de datos
Unidad 3 bases de datosUnidad 3 bases de datos
Unidad 3 bases de datosEd Gonzalez
 
Base de datos presentacion
Base de datos presentacionBase de datos presentacion
Base de datos presentacionluisalvarez594
 

Similar a 1 caracteristicas y_tipos_de_bases_de_datos (20)

Base de Datos - Daniela Monsalve
Base de Datos - Daniela MonsalveBase de Datos - Daniela Monsalve
Base de Datos - Daniela Monsalve
 
Actividad 3 producto final
Actividad 3 producto finalActividad 3 producto final
Actividad 3 producto final
 
Base de datos (conceptos básicos )
Base de datos (conceptos básicos )Base de datos (conceptos básicos )
Base de datos (conceptos básicos )
 
Tipos de BDD y SGBD
Tipos de BDD y SGBDTipos de BDD y SGBD
Tipos de BDD y SGBD
 
Base de datos
Base de datos Base de datos
Base de datos
 
Proveedor[1]..
Proveedor[1]..Proveedor[1]..
Proveedor[1]..
 
Cristian achury 10 01
Cristian achury 10 01Cristian achury 10 01
Cristian achury 10 01
 
Presentacion Base de Datos, Odalys Vasquez
Presentacion Base de Datos, Odalys VasquezPresentacion Base de Datos, Odalys Vasquez
Presentacion Base de Datos, Odalys Vasquez
 
Base de datos
Base de datosBase de datos
Base de datos
 
Base de Datos - Yaiberth Bravo
Base de Datos - Yaiberth BravoBase de Datos - Yaiberth Bravo
Base de Datos - Yaiberth Bravo
 
Glosario base de datos
Glosario base de datosGlosario base de datos
Glosario base de datos
 
bases de datos ayer y hoy
bases de datos ayer y hoybases de datos ayer y hoy
bases de datos ayer y hoy
 
Base de datos presentacion
Base de datos presentacionBase de datos presentacion
Base de datos presentacion
 
Introduccion a las Bases de Datos Relacionales
Introduccion a las Bases de Datos RelacionalesIntroduccion a las Bases de Datos Relacionales
Introduccion a las Bases de Datos Relacionales
 
Talleres Bd
Talleres BdTalleres Bd
Talleres Bd
 
Ciberconsulta -karen plata- 11-6
Ciberconsulta -karen plata- 11-6Ciberconsulta -karen plata- 11-6
Ciberconsulta -karen plata- 11-6
 
TIPOS DE BDD Y SGBD
TIPOS DE BDD Y SGBDTIPOS DE BDD Y SGBD
TIPOS DE BDD Y SGBD
 
Unidad 3 bases de datos
Unidad 3 bases de datosUnidad 3 bases de datos
Unidad 3 bases de datos
 
Trabajo tics 2
Trabajo tics 2Trabajo tics 2
Trabajo tics 2
 
Base de datos presentacion
Base de datos presentacionBase de datos presentacion
Base de datos presentacion
 

Último

DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptELENA GALLARDO PAÚLS
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfsamyarrocha1
 
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptxPresentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptxYeseniaRivera50
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptxJunkotantik
 
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...JAVIER SOLIS NOYOLA
 
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDUFICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDUgustavorojas179704
 
Flores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - BotánicaFlores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - BotánicaJuan Carlos Fonseca Mata
 
Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024IES Vicent Andres Estelles
 
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdfOswaldoGonzalezCruz
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIACarlos Campaña Montenegro
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADOJosé Luis Palma
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPELaura Chacón
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadAlejandrino Halire Ccahuana
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Baker Publishing Company
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxAna Fernandez
 
Factores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFactores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFlor Idalia Espinoza Ortega
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFAROJosé Luis Palma
 

Último (20)

DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdf
 
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptxPresentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptx
 
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
 
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDUFICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
 
Flores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - BotánicaFlores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - Botánica
 
Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024
 
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPE
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdad
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
 
Power Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptxPower Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptx
 
Repaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia GeneralRepaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia General
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docx
 
Factores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFactores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamica
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
 
Defendamos la verdad. La defensa es importante.
Defendamos la verdad. La defensa es importante.Defendamos la verdad. La defensa es importante.
Defendamos la verdad. La defensa es importante.
 

1 caracteristicas y_tipos_de_bases_de_datos

  • 1. 1 UNIVERSIDAD YACAMBÙ VICERRECTORADO DE INVESTIGACIÒN Y POSTGRADO INSTITUTO DE INVESTIGACIÓN Y POSTGRADO Cronograma de evaluación: Herramientas Web para la Ciencia y Tecnología TUTORA Dra. Lisbeth Campins TEMAS Características y tipos de bases de datos ESTUDIANTE Carlos Frankie Mesias Rodriguez Esmeraldas Ecuador Nov 7 del 2020
  • 2. 2 Características y tipos de bases de datos Las características de las bases de datos y las soluciones que existen hoy en día Existe mucha información acerca de las bases de datos, por lo tanto el objetivo de este artículo no es hacerlo un experto en el tema sino solo ser una guía de los conceptos que se manejan actualmente, conocer brevemente las características de las bases de datos y las soluciones que existen hoy en día. ¿Qué es una base de datos? De una manera simple, es un contenedor que permite almacenar la información de forma ordenada con diferentes propósitos y usos. Por ejemplo, en una base de datos se puede almacenar información de diferentes departamentos (Ventas, Recursos Humanos, Inventarios, entre otros). El almacenamiento de la información por sí sola no tiene un valor, pero si combinamos o relacionamos la información con diferentes departamentos nos puede dar valor. Por ejemplo, combinar la información de las ventas del mes de junio del 2014 para el producto ‘X’ en la zona norte nos da un indicativo del comportamiento de las ventas en un periodo de tiempo. Tipos de bases de datos Existen muchas empresas con diferentes giros y dependiendo del giro será el tipo de procesamiento que se le dará a la información, esto determinará el tipo de base de datos a utilizar. Existen diferentes tipos de bases de datos pero las más comunes son las OLTP y OLAP. Las bases de datos de tipo OLTP (On Line Transaction Processing) también son llamadas bases de datos dinámicas lo que significa que la información se modifica en tiempo real, es decir, se insertan, se eliminan, se modifican y se consultan datos en línea durante la operación del sistema. Un ejemplo es el sistema de un supermercado donde se van registrando cada uno de los artículos que el cliente está comprando y a su vez el sistema va actualizando el Inventario.
  • 3. 3 Las bases de datos de tipo OLAP (On Line Analytical Processing) también son llamadas bases de datos estáticas lo que significa que la información en tiempo real no es afectada, es decir, no se insertan, no se eliminan y tampoco se modifican datos; solo se realizan consultas sobre los datos ya existentes para el análisis y toma de decisiones. Este tipo de bases de datos son implementadas en Business Intelligence para mejorar el desempeño de las consultas con grandes volúmenes de información.
  • 4. 4 La necesidad de implementar un tipo u otro dependerá del giro y necesidades de cada empresa. Es muy importante identificar el tipo de base de datos que se requiere antes de implementar un manejador de base de datos. Por ejemplo podemos citar al manejador de base de datos “DB2 10.5 with BLU Acceleration”, la cual proporciona una solución para la parte transaccional y para la parte de analíticos. Tipo de información que se puede almacenar Cuando surgen las bases de datos el tipo de información que se podía almacenar era de tipo estructurada. La información es almacenada en un objeto llamado “Tabla” la cual nos permite organizar la información. Por ejemplo, la tabla de “Empleados” contiene información relacionada al #Empleado, Nombre, Apellido, #Seguro Social, etc. Cada uno de estos elementos en una base de datos recibe el nombre de “Campo” y el conjunto de estos elementos recibe el nombre de “Registro” (También llamado Columna y Renglón, Hilera o Fila).
  • 5. 5 Los tipos de datos que se pueden almacenar son diversos, pero los más comunes son de tipo Numérico, Decimales y tipo Texto. Conforme han evolucionado las bases de datos se han expandido los tipos de datos que pueden almacenar. Por mencionar algunos tipos están los CLOB (Character Large Object) y BLOB (Binary Large Object). Los CLOB son utilizados para almacenar documentos y los BLOB para almacenar una imagen o video. Otro tipo de dato relevante hoy en día es el tipo de dato XML. Este es un tipo de dato jerárquico porque parte de un nodo inicial o raíz, y a su vez puede tener ‘n’ niveles y subniveles. Muchos manejadores de bases de datos pueden manipular este tipo de dato; sin embargo, no de forma nativa como lo hace DB2, es decir, el documento es almacenado como un CLOB. La desventaja de almacenarlo como un CLOB implica dividir el documento y guardarlo en diferentes áreas (como si fuera un rompecabezas), y para consultarlo se debe armar para mostrar su información (lo cual implica problemas de desempeño). Una ventaja competitiva que tiene DB2 es que los documentos XML se almacenan de forma nativa, es decir, el documento se almacena dentro de la base de datos, lo que permite consultar la información de forma directa y con mucho mejor desempeño. Incluso se pueden crear índices a nivel documento XML para consultar un nodo en específico, y así acceder más rápido a la información. Otra ventaja es la compresión de documento XML lo cual incrementa el ahorro en almacenamiento.
  • 6. 6 Existen otras bases de datos que permiten almacenar diferentes tipos de documento, como por ejemplo: Cloudant, el cual se verá más adelante. Con la evolución en las tecnologías de la información y las nuevas necesidades en el manejo de la información nace el concepto Big Data. Existen diferentes definiciones, pero la más sencilla es el manejo de grandes volúmenes de información que vienen de diferentes fuentes de datos (Estructurados, No estructurados, XML, HTML, etc.) de una manera rápida sin afectar la disponibilidad de la información y operación de los sistemas. Las consultas hechas en Big Data ayudan al análisis y a la toma de decisiones. http://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/ Otra de las ventajas competitivas que tiene las bases de datos como DB2 e Informix es que permite hacer la explotación de la información que viene de diferentes fuentes permitiendo así la integración con otros sistemas y lenguajes que utilizan sentencias SQL y NoSQL. https://www.ibm.com/developerworks/ssa/library/bd-datos-sql-y-nosql-en-db2/ Información a través del tiempo Cuando se crea una base de datos y se inicia su operación el volumen de la información es mínima y el desempeño de la aplicación y base de datos es óptima. Sin embargo conforme pasa el tiempo el volumen de información incrementa y en consecuencia surgen los siguientes problemas:
  • 7. 7 1. Problemas de espacio en disco. 2. Incrementos de costo en almacenamiento y procesamiento. 3. Problemas de desempeño en las consultas. 4. Fallas en el aplicativo afectando la disponibilidad de los datos. 5. Problemas con la base de datos y la pérdida de información. De los problemas anteriores surge la necesidad de hacer mejoras a las bases de datos y/o crear arquitecturas para dar soluciones a los problemas anteriores. Se han implementado varias soluciones a nivel Software y Hardware. Uno de los principales problemas a solucionar es la disponibilidad y la pérdida de la información. En DB2 existen dos soluciones, la primera evita perder la información en caso de desastres, contingencia, etc. y la segunda evita que la disponibilidad de la información se vea afectada, es decir, la información estará disponible 24×7 (En todo momento). Estas soluciones son: 1. HADR (High Availability and Disaster Recovery) – Alta disponibilidad 2. PureScale – Disponibilidad continua ¿Qué es HADR? Sus siglas en inglés significan High Availability Disaster Recovery. Es una característica de replicación de datos que brinda una solución de Alta Disponibilidad cuando surge una falla parcial o total en uno de los servidores principales. Es una solución que soporta un Servidor como Primario y hasta tres Servidores como Secundarios. Si el servidor primario falla, uno de los servidores secundarios tomará el control y pasará a ser ahora el servidor primario. La replicación de la información se hace a través de los archivos log de transacciones. Ventajas  Minimiza el impacto de interrupciones planeadas y no planeadas.  Permite la actualización del software sin interrumpir la operación.  Para el aplicativo es transparente, no se requiere modificar la aplicación.  No se requiere Hardware especializado.  Fácil administración y configuración.
  • 8. 8 ¿Qué es PureScale? Es una arquitectura basada en Clúster. Un Clúster es un conjunto de varios ordenadores unidos por una red de alta velocidad, de tal forma que es visto como un solo computador más potente. Es una característica de DB2 que reduce el riesgo y los costos del crecimiento del negocio al proporcionar capacidad extrema, disponibilidad continua y transparencia para el aplicativo. Capacidad extrema significa que puede crecer su sistema como sea necesario. Ventajas  Evita riesgos y costos en cambios a la aplicación.  Diseñado para sistemas que requieren de disponibilidad continua (24×7). Si uno o varios miembros fallan, la transacción y operación del sistema continúan.  Utiliza la misma arquitectura del indiscutible estándar de Oro, los Sistemas Z.  Agrega o quita miembros de una manera fácil.  No se requiere tunear la infraestructura de la base de datos.  Balanceo automático de cargas de trabajo.  Construido y disponible en Power Systems y servidores System x.  El núcleo del sistema es una arquitectura de disco compartido.
  • 9. 9 La implementación de HADR o PureScale dependerá de las necesidades y capacidades de cada empresa. Otras soluciones han sido implementadas a nivel base de datos para hacer frente a los problemas de performance. DB2 ofrece una gran variedad de alternativas para hacer frente a los problemas de performance. 1. DPF (Database Partition Feature). Particionamiento de bases de datos. 2. Table Partitioning. Particionamiento de tablas. 3. MDC (Multi-Dimension Clustering). Convertir tablas en múltiples dimensiones. Para tener un mejor entendimiento del tema de particionamiento se hace la analogía de la frase “divide y vencerás”. Es el mismo principio utilizado en estas características de DB2. Una de las ventajas de estas características es que se hace un aprovechamiento del poder de múltiples procesadores en múltiples nodos físicos. Los datos que son consultados o modificados son descompuestos automáticamente y ejecutados en cada una de las particiones. El uso de esta característica es transparente para el usuario que ejecuta sentencias SQL. Ventajas
  • 10. 10  Menores Entradas/Salidas a disco.  Se centra en un subconjunto de datos.  Porciones pequeñas dividida en más procesadores.  Disponibilidad de datos más rápido.  Mejor administración.  Mantenimiento fácil para pequeñas porciones de datos. ¿Qué es DPF (Data Partitioning Feature)? Es una característica de DB2, la cual permite hacer el particionamiento de base de datos. Con esta característica se mejora el desempeño y la escalabilidad de grandes bases de datos. Cuando existen grandes volúmenes de información en una base de datos, esta es una de las soluciones a implementar. Cada partición de base de datos tiene su propio conjunto de recursos informáticos incluyendo CPU, Memoria y unidades de almacenamiento. En un ambiente DPF los registros de cada tabla son distribuidos en las diferentes particiones (DB2 utiliza un algoritmo para determinar en qué partición deberá estar la información). DPF es una característica de escalabilidad. DPF acepta diferentes configuraciones: 1. Discos compartidos. 2. Discos dedicados. 3. Permite el uso de particiones lógicas y físicas. 4. Los comandos para la administración de la base de datos son ejecutados en cada una de las particiones de forma automática y transparente. 5. Es transparente para el aplicativo.
  • 11. 11 ¿Qué es Table Partitioning? Es el mismo concepto que DPF solo que esto aplica para tablas dentro de una base de datos, es decir, es el particionamiento de los datos de una tabla en un subconjunto de datos. En la mayoría de los casos las bases de datos conservan información de muchos años atrás (históricos) lo que provoca que al ejecutar consultas sobre esa tabla el desempeño se vea afectado y el consumo de los recursos sea mucho mayor. Por ejemplo, si se ejecuta una consulta sobre un millón de registros tardará más que si se realiza sobre 100,000 registros. Supongamos que tenemos la tabla de Ventas la cual contiene 10 millones de registros correspondiente a las ventas de 10 años (2004, 2005…2014). Si consultamos información del año 2005 probablemente el tiempo de espera para mostrar la información será alto. En cambio si se hace un particionamiento de las ventas por año, al consultar la información del año 2005 el manejador de la base de datos solo consultará sobre un millón de registros y no sobre los 10 millones de registros. Dicho de otra manera el motor de la base de datos consultará solo la partición donde se encentran las ventas del año 2005.
  • 12. 12 Ventajas  Incremento del desempeño de las consultas.  Mejor optimización para los costos de almacenamiento.  Rápida creación y/o eliminación de particionamiento de datos.  No afecta la disponibilidad de los datos al agregar o quitar particiones.  Incremento del tamaño de las tablas. Las tablas están limitadas en almacenar un monto máximo de datos, utilizando Table Partitioning podemos incrementar el tamaño de la tabla mediante el uso de diferentes particiones. ¿Qué es MDC (Multi-Dimension Clustering)? Proporciona un método elegante para permitir que los datos de una tabla puedan ser agrupados físicamente en varias dimensiones simultáneamente de una manera flexible y automática. Esto puede mejorar mucho el desempeño de las consultas. Ventajas  Reduce el gasto de mantenimiento en los datos tales como reorganizaciones y mantenimiento de índices durante la creación, eliminación y actualización de datos.  Pensado inicialmente para Data Warehouse y bases de datos con grandes volúmenes de información, pero también puede ser utilizado en bases de datos de tipo OLTP. En ambientes Data Warehouse normalmente las consultas se hacen sobre grandes volúmenes de información lo que conlleva a tener problemas en los tiempos de respuesta. Las consultas que se realizan siempre van relacionadas con fechas, cálculos, productos, regiones, tipos, áreas geográficas, etc. Por ejemplo, si nuestras consultas de Ventas siempre son por “Fecha”, “Tipo de producto” y “Forma de pago” entonces podemos hacer el uso de MDC para la tabla de Ventas para poder tener un mejor desempeño durante las consultas. Cuando nosotros realicemos una consulta filtrando por “Fecha del producto” el manejador de la base de datos utilizará solo una dimensión (un segmento de datos). Si en nuestra consulta utilizamos los filtros por “Fecha de venta” y “Tipo de producto” entonces el manejador de la base de datos utilizará dos dimensiones (dos Segmentos de datos) y así sucesivamente. Similar a DPF el motor de la base de datos consultará segmentos específicos de datos incrementando el desempeño en las consultas.
  • 13. 13 Es importante mencionar que podemos hacer una combinación de todas estas características para enfrentar a los problemas que nos enfrentamos cuando hacemos consultas sobre grandes volúmenes de información. Hoy en día ya existen otras optimizaciones que se han hecho al motor de DB2, el cual se podrá ver más adelante. El segundo punto importante son los problemas comunes a los que se enfrentan las bases de datos y las empresas, el incremento de los volúmenes de información. Del lado de las bases de datos implica problemas de desempeño al hacer consultas sobre grandes volúmenes de información y del lado de la compañía implica incrementos en los costos de almacenamiento. De aquí surge la necesidad de implementar nuevos mecanismos para reducir los tiempos y costos, y es aquí donde surge el tema de la compresión de datos. ¿Qué es la Compresión de datos? Es básicamente la reducción del volumen de información utilizando la menor cantidad posible de espacio. Hay muchas técnicas y algoritmos que se han implementando en las bases de datos, sin embargo una ventaja competitiva de DB2 es que adicionalmente incluye la compresión de los distintos tipos de objetos. 1. Compresión de registros. 2. Compresión de tablas. 3. Compresión de Índices. 4. Compresión de tablas temporales. 5. Compresión de objetos e imágenes. 6. Compresión de documentos XML. 7. Compresión de Log de transacciones. 8. Compresión de backup. En este tema se ha avanzado mucho pero DB2 tiene el liderazgo. Ahora con el nuevo concepto de bases de datos en memoria y con almacenamiento por columnas se puede lograr mayores tasas de compresión, mejores a las que ya se venían obteniendo en versiones previas. http://www.ibm.com/developerworks/ssa/data/library/DB2BLU/
  • 14. 14 Ventajas  Reduce los costos de almacenamiento.  Incrementa la performance en las consultas.  Reduce la Entrada/Salida al disco.  Reduce costos de energía.  Trabaja con datos en memoria y con datos comprimidos. En la siguiente figura se muestra un ejemplo de cómo se realiza la compresión con base a patrones de repetición. Para la compresión de datos se utiliza un diccionario donde se almacenará un digito en hexadecimal que representará los datos que se repiten. Estos dígitos en hexadecimal reemplazarán a los datos en la tabla. Uno de los costos más altos y relevantes es cuando consultamos información con acceso a discos. Dependiendo de las características del disco será la velocidad con que los datos serán recuperados por la base de datos y devueltos al usuario final. Al comprimir datos se reducen las Entradas/Salidas al disco, debido a que con menos acceso al disco, se obtendrán mayores volúmenes de información. Existen diferentes tipos de discos, los discos duros o también llamados discos rígidos que son discos de almacenamiento de datos no volátil, que emplean un sistema de grabación magnética para almacenar datos digitales; y los discos de estado sólido conocidos como SSD (Solid State Disk) que es un dispositivo de almacenamiento de datos que puede estar construido con memoria volátil y no volátil. Estos discos son muy rápidos y consumen menos energía y la tendencia indica que en un futuro sustituirán a los discos duros. Su principal inconveniente es que son caros.
  • 15. 15 ¿Qué es un Data Warehouse? Es un almacén de datos que es utilizado para explotar grandes volúmenes de información (entre ellos información histórica) para efectos de análisis que ayuden a la toma de decisiones en las grandes empresas. Las bases de datos orientadas a Data Warehouse no contienen datos actuales, es decir, no es una base de datos transaccional OLTP, es un tipo de base de datos OLAP. Se ha mencionado que las bases de datos tienen muchos retos y uno de ellos es que no se puede utilizar la misma base de datos para transacciones y para efectos de análisis. Esto no se puede realizar por las limitantes que se pueden tener con el Hardware, Software, Memoria, dispositivos de almacenamiento, procesadores, etc. Debido a lo anterior se debe especificar qué tipo de base de datos debemos utilizar (OLTP u OLAP). Con las nuevas necesidades y el avance tecnológico se han modificado las bases de datos y también se han creado nuevas arquitecturas de solución (DB2 10.5 with BLU Acceleration, Informix, PureData for Analytics entre otros). Las empresas cuando toman la decisión de crear un Data Warehouse deben realizar un profundo análisis de la información que desean analizar y conocer cuales serán los datos a migrar. Los datos que alimentan a un Data Warehouse pueden venir de diferentes fuentes e incluso de diferentes proveedores de bases de datos. Para hacer la integración de la información se requieren herramientas que nos permitan hacer la concentración de la información en el Data Warehouse. Las herramientas son variadas y existen diferentes proveedores, estas son conocidas como herramientas ETL. ¿Qué es un ETL? Sus siglas en inglés significan Extract Transform Load. Extract es el proceso de extraer la información que puede venir de diferentes fuentes de datos o bases de datos de distintos proveedores. Por ejemplo, consolidar los presupuestos de México y Canadá, cuya información está almacenada en una base de datos Informix y MySQL respectivamente. A través de una conexión vía ODBC puede hacer la extracción de la información para concentrarla en el Data Warehouse. Transform es el proceso de transformar los datos que se están extrayendo antes de ser almacenados en el Data Warehouse. Tomando el ejemplo anterior, la transformación sería hacer los cálculos de los presupuestos de México y Canadá por año, mes y región. Por último, el Load es el proceso de la carga de los datos ya transformados hacia el Data Warehouse. En el ejemplo anterior estamos almacenando los presupuestos ya calculados de las regiones México y Canadá por año, mes y región.
  • 16. 16 Una herramienta que ayuda en este tipo de actividades es el producto de IBM InfoSphere DataStage. http://www-03.ibm.com/software/products/en/ibminfodata/ ¿Qué es un Data Mart? Es simplemente un subconjunto de datos de un Data Warehouse para un área específica. En un Data Warehouse se tiene la información concentrada de una empresa y de todos los departamentos. Los Data Mart nos permiten hacer una separación de los datos para funciones específicas, usuarios específicos y áreas específicas. La información que alimenta a un Data Mart también pueden provenir de una base de datos transaccional. Esta es una de las nuevas características del producto DB2 10.5 with BLU Acceleration. La administración simple de DB2 10.5 with BLU Acceleration permite generar Data Mart de una forma rápida para ser capaz de reaccionar a los requerimientos del negocio. DB2 también permite la ejecución de reportes analíticos en tiempo real para ayudar a la toma de decisiones.
  • 17. 17 ¿Qué modelo de datos se utiliza en un Data Warehouse o Data Mart? El modelo de datos que se utiliza en una base de datos de tipo OLTP es un modelo relacional donde existe una relación de datos de cero a uno, de uno a uno y de uno a muchos. Para relacionar y explotar la información en un modelo relacional se requiere de la creación de índices primarios y compuestos que en un ambiente Data Warehouse no es viable por el volumen de información que se utiliza. Los bases de datos para Data Warehouse o Data Mart manejan muchos volúmenes de información y dependiendo del diseño de cada una de estas, los datos ya estarán calculados o precalculados lo que permite que los tiempos de respuestas sean mucho mejor. Uno de los modelos comúnmente utilizados es el modelo Star Schema o un esquema en estrella. Un esquema en estrella es aquel que tiene una tabla de hechos también llamada Fact Table y alrededor sus dimensiones. Las dimensiones están relacionadas a la tabla de hechos a través de una llave primaria. Este tipo de esquema es ideal para bases de datos de tipo OLAP y Data Mart por su simplicidad y la velocidad para hacer análisis. DB2 tiene muchas optimizaciones internas para hacer el uso de este tipo de esquemas. Por ejemplo ha implementado el uso del nuevo método Zigzag.
  • 18. 18 Informix Warehouse Accelerator – IWA Sus siglas en inglés son Informix Warehouse Accelerator el cual es un optimizador de cargas de trabajo que permite la integración en los procesos operacionales para conducir estrategias ganadoras. Acelera las consultas con tiempos de respuestas sin precedentes. El IWA es una tecnología de vanguardia para mejorar el performance y ofrece las siguientes capacidades: 1. Compresión extrema necesaria porque la memoria RAM es el factor limitante. 2. Base de datos por renglón para cargas de datos transaccionales (OLTP) y por Columna para accesar a datos vía el acelerador para OLAP. 3. Tercera generación de bases de datos en memoria. Evita la Entrada/Salida al disco debido a que la compresión permite tener los datos residentes en memoria. 4. Frecuencia de particionamiento. Habilitado para el acceso efectivo de los datos comprimidos. 5. Paralelismo masivo. Todos los procesadores son utilizados en las consultas. 6. Evaluación de predicados con datos comprimidos lo que incrementa el desempeño en las consultas. 7. Actualización automática a nivel de partición lo cual permite refrescar en los Data Mart solo los datos que han cambiado. 8. Soporte para datos de series de tiempos. Se pueden analizar en memoria los datos que vienen de censores inteligentes, medidas, localización GPS, u otros dispositivos en tiempo real.
  • 19. 19 ¿Qué son los PureSystem? Son una nueva clase de sistemas integrados expertos que están diseñados, prefabricados, configurados y optimizados para ejecutar cargas de trabajo muy complejas y especificas. Las ventajas que ofrecen este tipo de sistemas son: 1. Construido con base a la colección de conocimientos colectivos de miles de implementaciones, mejores practicas, experiencia de socios de negocios y proveedores. 2. Integrados por diseño. Todos los componentes de Hardware y Software están perfectamente integrados y sincronizados para las cargas de trabajo que va a ejecutar. 3. Proporciona una perfecta sincronía entre el Hardware y Software ya que vienen previamente diseñados, integrados, configurados. Al instalarlo y conectarlo a la red usted tiene un sistema listo para operar. 4. Se obtiene valor en cuestión de días ya que la experiencia de los expertos está incorporada junto con la integración de los sistemas. Familia de los PureSystem
  • 20. 20 Existen tres familias de PureSystem, los cuales están diseñados para dar solución a los problemas que enfrentan los diferentes tipos de cargas de trabajo, cambiando la economía y la experiencia de las tecnologías de la información.  PureFlex: Estos sistemas proporcionan servicios de infraestructura y permiten construir su propia aplicación o entornos de infraestructura en un entorno escalable, de alta disponibilidad y fácil de mantener. Si hay solo una plataforma y desea construir cualquier aplicación independientemente de los sistemas que tenga, PureFlex es la solución.  PureApplications: Esta basado en los mismos principios de PureFlex y proporciona servicios de plataforma. Se integra todo el Software y las herramientas que se necesitan para construir una plataforma de aplicaciones altamente escalable. El objetivo es ofrecer una plataforma de aplicaciones tipo Web. Si usted tiene aplicaciones Web o aplicaciones que utilizan memoria y tienen interacción con la base de datos entonces PureApplications es la solución.  PureData: Por ultimo, estos sistemas son desarrollados para ofrecer servicios de datos a las aplicaciones independientemente de que se trate de aplicaciones transaccionales como punto de venta o CRM, o sistemas de análisis como perdida de clientes y/o administración de campañas. Para datos específicos, aplicaciones OLTP, aplicaciones y sistemas de análisis profundo entonces PureData es la solución. Cuando hablamos de los sistemas PureData tenemos diferentes dispositivos PureData, porque sus aplicaciones de datos, el acceso a los tipos de datos y las transacciones son muy diferentes. Y es aquí donde se ofrecen nuevos dispositivos.
  • 21. 21 Sistemas PureData para Hadoop Este dispositivo está optimizado para almacenar, catalogar, analizar y transformar grandes volúmenes de información en muchos formatos diferentes. También se puede utilizar para mantener mayores datos relacionados que se acceden con menor frecuencia desde un Data Warehouse, por lo tanto mantiene un fácil acceso sin ocupar espacio y recursos en el Data Warehouse. Optimizado también para el analizar archivos en línea. Sistemas PureData para transacciones Este dispositivo está diseñado para el comercio electrónico, comercio Web transaccional. Como por ejemplo, las aplicaciones puntos de venta donde se escanea un código y a través de él se determina su precio. También conocido como servicios de cluster de bases de datos optimizado para el rendimiento y escalabilidad transaccional. Sistemas PureData para analíticos
  • 22. 22 Este dispositivo tiene una optimización diferente debido a que hay una interacción con la base de datos, con la memoria, y optimiza de forma diferente las cargas de trabajo para análisis y Data Warehouse. Esto es para aplicaciones como el análisis de clientes, análisis predictivo, alta velocidad de análisis en datos (petabyte) con la máxima simplicidad. Esto está desarrollado con la Tecnología de Netezza. El sistema N200x sigue ofreciendo: 1. Mismas optimizaciones para grandes volúmenes de datos. 2. Ninguna administración táctil. 3. Más de 150 funciones analíticas optimizadas. 4. Rendimiento optimizado de análisis de Big Data. 5. Administración sencilla para un despliegue rápido y fácil. 6. Tres veces más rápido que el modelo N1001. 7. 50% más de capacidad de datos por rac. Esto ayuda a optimizar la eficiencia del Data Center sin incrementar la potencia o los requisitos de refrigeración. Sistemas PureData para análisis de operaciones Este dispositivo da una solución como mezcla de la información de lo que usted tiene, lo que usted sabe y los análisis, pero usted tiene búsquedas puntuales. Por ejemplo, si usted esta buscando la detección de un fraude en tiempo real en el que está haciendo profundas exploraciones a muchos datos e identifica que puede haber problema en algunos registros, usted luego realiza una búsqueda puntual a esos registros. Está optimizado para equilibrar el alto rendimiento para el análisis de datos y optimizado para equilibrar el rendimiento operativo en tiempo real. https://www.ibm.com/support/pages/welcome-puredata-system-operational-analytics- support Cuando se tiene un número de consultas puntuales de tipo transaccional se debe inclinar hacia los sistemas PureData para Análisis de Operaciones. Si necesita consultas muy complejas de alta velocidad entonces se debe inclinar por PureData para Analíticos (Este es el sistema basado en Netezza). La tendencia – Bases de datos en Memoria Como hemos visto, conforme pasa el tiempo las necesidades del negocio cambian y crecen, por lo tanto se han agregado nuevas características a las bases de datos para hacer frente a los problemas de alta disponibilidad, desempeño, seguridad, ahorros en almacenamiento, etc. Uno de los recursos más costoso es el almacenamiento de la información y hoy con el nuevo concepto de Big Data la necesidad de manejar grandes volúmenes de información se ha incrementado. El acceso a disco es el acceso más lento para obtener la información. Actualmente el costo de la memoria ha disminuido y la tendencia es hacer un mejor uso de la misma porque se ha demostrado que el área principal de una base de datos para obtener un mejor desempeño es la memoria, al tener los datos en memoria, el acceso a la información se realiza de una manera más rápida. Las bases de datos cuando buscan la información en el disco para después subirla a memoria, generan cuellos de botella, esto dependerá también del tipo de disco que se tenga. En la sección previa se comentó que el uso de discos de estado sólido SSD es
  • 23. 23 también la tendencia, pero por el momento son muy costosos y no es una solución viable para muchas empresas. Para hacer frente al mejor uso de la memoria y entregar mejores resultados en bases de datos OLAP, en DB2 e Informix se han agregado nuevas características que permiten no solo tener los datos en memoria sino que también permite obtener mayores tasas de compresión de datos, lo cual permite manipular mayores volúmenes de información. La tendencia es tener más datos en memoria de manera comprimida, con lo anterior se reduce el acceso a disco y se incrementa el desempeño para el análisis de la información. Tipos de OLAP ROLAP Sus siglas en inglés significan Relational OLAP. En ROLAP los datos son almacenados en un Star Schema con tablas de Hechos y Dimensiones. Las consultas SQL analíticas tienen un gran número de Joins, Scan y enormes cantidades de datos agregados. Por ejemplo DB2 Cube Views y Cognos Framework Manager with Relational Datasource. MOLAP Sus siglas en inglés significan Multidimentional OLAP. Es la descripción de un servidor OLAP que almacena el cubo completo OLAP en memoria. Normalmente los agregados son precalculados y almacenados en memoria. Esto trae como resultado respuestas muy rápidas a consultas de datos y permite una alta concurrencia en ejecución de consultas. Ejemplo Cognos Power Cubes, Cognos TM1 y Essbase.
  • 24. 24 HOLAP Sus siglas en inglés significan Hybrid OLAP. Como sus siglas lo indican es una combinación de ROLAP Y MOLAP. Combina muchas de las características de ROLAP Y MOLAP donde no existe límite del tamaño de datos como ROLAP y proporciona todas las capacidades para obtener detalles de la información, con una alta concurrencia y alto rendimiento para los datos solicitados. Si los datos solicitados están en cache no se realiza la consulta en la base de datos, de lo contrario la consulta se ejecutará en la base de datos. Ejemplos Cognos 10.1.1 DMR y Cognos Dynamic Cubes.
  • 25. 25 ¿Qué es IBM BLU Acceleration for Cloud? Es una solución de Data Warehouse y Análisis en la Nube. El concepto de Nube de una manera simple son los servicios informáticos que se ofrecen a través de Internet. Una de las ventajas de estas arquitecturas es que las empresas ya no requieren de una infraestructura propia y permite a los usuarios accesar a las aplicaciones desde cualquier punto donde se encuentren. Para los programadores permite el rápido desarrollo de aplicaciones. ¿Qué es Cloudant? Es una base de datos como servicio (DBaaS) la cual permite centrarse en el desarrollo rápido de aplicaciones en Internet y aplicaciones móviles en lugar de preocuparse por la expansión y gestión de la base de datos por su cuenta. Tiene alta disponibilidad, es duradera y contiene amplias funciones. El almacén de datos se construye para la escalabilidad y está optimizada para lecturas y escritura de datos simultáneas. Maneja también una amplía variedad de tipos de datos estructurados y no estructurados entre ellos JSON, textos completos y geoespacial.
  • 26. 26 https://cloudant.com/ La base de datos Cloudant es la primera plataforma de gestión de datos para aprovechar la disponibilidad, escalabilidad, y el alcance de la Nube para crear una red de distribución global de datos (DDN) que permita a las aplicaciones estar disponibles para los usuarios donde quiera que se encuentren. ¿Qué es JSON? Sus nomenclaturas en inglés significan JavaScript Object Notation, el cual es un formato ligero para el intercambio de datos. JSON está basado en un subconjunto del lenguaje de programación JavaScript. Su simplicidad ha hecho que su uso se esté ampliando, algo similar al manejo de datos tipo XML donde es fácil de implementar, de leer y de utilizar. También es independiente del lenguaje de programación ya que muchos lenguajes tienen características para mapear con JSON. Se emplea en ambientes donde el flujo de los datos es de vital importancia como por ejemplo Google, Yahoo, etc. que atienden a millones de usuarios. JSON está soportado en DB2 10.5 e Informix 12.1 con el cual se permite guardar, consultar y actualizar documentos. Combina datos desde otros sistemas con datos tradicionales en la misma base de datos, como por ejemplo las aplicaciones Web o móviles. JSON da el poder a los programadores de reducir la dependencia de las tecnologías de la información, es decir, no se necesitan crear esquemas y tampoco tablas. Ejemplo de un simple documento:
  • 27. 27 La importancia de JSON es que ayuda a habilitar la nueva era de aplicaciones móviles, sociales y Nube convirtiéndose así en uno de los lenguajes para la Web. Solo soporta seis tipos de valores y son: 1. Cadena (String) 2. Numérico 3. Booleano 4. Valores especiales como el valor “nulo” 5. Objetos 6. Arreglos No soporta estructuras de datos cíclicos, es decir, utilizar un conjunto de acciones que se pueden ejecutar una o varias veces (Para “For 1 to 10…” , Mientras “While v_cont 100…”, Repetir “Repeat … ” ). Internet de las cosas (IoT) Hoy, el mundo esta híper conectado con diferentes fuentes de información (redes sociales, unidades móviles, censores y todo lo que está a nuestro alrededor) lo que está provocando estar en contacto con mucha información. Todo este mundo de información hace el Internet de cosas creando nuevas oportunidades en muchas áreas. El objetivo no es almacenar grandes volúmenes de información sino actuar sobre la misma a través del análisis de una forma rápida para el aprovechamiento de la misma. El objetivo es darle valor a la información para ofrecer lo que quiere el consumidor, para identificar fraudes, optimizar reabastecimiento de inventarios, etc. El Internet esta accesible 24×7 los 365 días del año y la información está ahí como una oportunidad de hacer negocio. Este mundo de información no puede ser explotada por cualquier manejador de base de datos lo cual hace complicado el manejo y análisis de este mundo de información. Las razones son las siguientes: 1. Los datos son generados de diferentes sistemas, con formatos complejos, diferentes fuentes y tipos de datos, estructurados, no estructurados y vienen de diferentes contextos. 2. Son difíciles de analizar por el volumen de información, requieren más procesamiento, modelado de datos, análisis complejo de textos y correlación de datos a través de los distintos sistemas. 3. Usted necesita ser capaz de visualizar la información para actuar sobre ella. Se requieren sofisticados algoritmos de búsqueda para tomar decisiones. IBM Informix – Base de datos inteligente para IoT IBM Informix es una base de datos inteligente para resolver los problemas de IoT. Sus características únicas le permiten que funcione en dispositivos periféricos y también en la Nube. En la Nube, Informix tiene la escalabilidad y el rendimiento para servir como plataforma de análisis avanzados que consolidan la información de millones de dispositivos. También tiene la capacidad de proporcionar inteligencia local: Consolidación de datos locales, análisis y toma de decisiones locales, tiene el almacenamiento en cache si es necesario, el control y la replica a la nube para copias
  • 28. 28 de seguridad y recuperación. Donde quiera implementarlo obtendrá facilidad de uso, estabilidad y un conjunto de características que la convierten en la solución de base de datos “Simplemente Potente” para Internet. Conclusión El tema de bases de datos es muy amplio de explorar y difícil de seleccionar cuál es la mejor arquitectura a utilizar. Normalmente se separan las bases de datos para operaciones Transaccionales y para Analíticos. Es necesario hacer un buen análisis del tipo de operación que se va a ejecutar en la base de datos para poder elegir la arquitectura más adecuada y así realizar un buen uso de las capacidades de las bases de datos para obtener los mejores resultados. Para las compañías es difícil mantener un equilibrio entre invertir en Hardware y Software. Ya hemos visto diferentes tipos de soluciones que se adaptan a los distintos giros de empresas. La compresión de datos, el manejo de grandes volúmenes de información (Estructurados y No Estructurados), datos en memoria, lenguajes de programación que utilizan sentencias SQL y NoSQL, sistemas híbridos (Transaccionales y Analíticos), reducción de costos de almacenamiento y los tiempos mínimos de respuesta para obtener un resultado han sido los motivos para el desarrollo de nuevas arquitecturas a nivel Software y Hardware.
  • 29. 29 Referencias DB2 with BLU Acceleration DB2 PureScale DB2 High Availability Data Warehouse Analytics Big Data and Analytics PureSystem