2. PARA EMPEZAR, UNA BREVE
EXPLICACIÓN
Durante las décadas de los 60 y 70 surge el concepto de las bases de datos;
sin embargo, el objetivo principal siempre ha sido la administración óptima
de la información y el uso que se le puede dar a la misma.
Hoy, las necesidades de las empresas han cambiado y la necesidad de
interactuar con diversas fuentes de información ha desafiado a las bases
de datos.
Los volúmenes de información han crecido es estos últimos tiempos, así
los tiempos de respuesta para analizar la información y tomar decisiones
debe ser inmediata.
Viendo
el
pasado
4. De una manera simple, es un contenedor que permite almacenar la
información de forma ordenada con diferentes propósitos y usos.
Por ejemplo, en una base de datos se puede almacenar información
de diferentes departamentos (Ventas, Recursos Humanos,
Inventarios, entre otros).
El almacenamiento de la información por sí sola no tiene un valor,
pero si combinamos o relacionamos la información con diferentes
departamentos nos puede dar valor. (INFORMACIÓN)
¿Qué es una base de datos?
5. Tipos de bases de datos
Existen muchas empresas con diferentes giros y dependiendo
del giro será el tipo de procesamiento que se le dará a la
información, esto determinará el tipo de base de datos a
utilizar.
Existen diferentes tipos de bases de datos pero las más
comunes son las OLTP y OLAP.
En pocas palabras las bases de datos pueden clasificarse de
varias maneras, de acuerdo al contexto que se esté
manejando, o la utilidad de la misma.
6. OLTP
OLTP (On Line Transaction Processing) también son llamadas
bases de datos dinámicas lo que significa
que la información se modifica
en tiempo real, es decir,
se insertan, se eliminan,
se modifican y se
consultan datos en línea
durante la operación
del sistema.
7. OLAP
Las bases de datos de tipo OLAP (On Line Analytical
Processing) también son
llamadas bases de datos
estáticas lo que significa
que la información en
tiempo real no es afectada, es decir, no se insertan, no se
eliminan y tampoco se
modifican datos; solo se
realizan consultas sobre los datos ya existentes para el análisis
y toma de decisiones.
8. Tipo de información que se puede
almacenar
Cuando surgen las bases de datos el tipo de información que se
podía almacenar era de tipo estructurada. La información es
almacenada en un objeto llamado “Tabla” la cual nos permite
organizar la información.
Los tipos de datos que se pueden almacenar son diversos, pero los
más comunes son de tipo Numérico, Decimales y tipo Texto.
Conforme han evolucionado las bases de datos se han expandido
los tipos de datos que pueden almacenar. Por mencionar algunos
tipos están los CLOB (Character Large Object) y BLOB (Binary Large
Object).
CLOB son utilizados para almacenar documentos
BLOB para almacenar una imagen o video
Otro tipo de dato relevante hoy en día es el tipo de dato XML. Este
es un tipo de dato jerárquico porque parte de un nodo inicial o raíz,
y a su vez puede tener ‘n’ niveles y subniveles.
9. Información a través del tiempo
Cuando se crea una base de datos y se inicia su operación el
volumen de la información es mínima y el desempeño de la
aplicación y base de datos es óptima. Sin embargo conforme
pasa el tiempo el volumen de información incrementa y en
consecuencia surgen los siguientes problemas:
1. Problemas de espacio en disco.
2. Incrementos de costo en almacenamiento y
procesamiento.
3. Problemas de desempeño en las consultas.
4. Fallas en el aplicativo afectando la disponibilidad de los
datos.
5. Problemas con la base de datos y la pérdida de
información.
10. Y QUÉ TIPOS DE BASES DE DATOS
EXISTEN??
Al igual que los carros, televisores y demás, existe diferentes
tipos y variantes, así que tenemos diferentes tipos de bases de
datos que pueden ser clasificados según la variabilidad pero
también se las puede clasificar de acuerdo a su modelo de
administración de datos.
11. Según la variabilidad de los datos
almacenados:
• Bases De Datos Estáticas:
Estas son bases de datos de solo lectura, utilizadas
primordialmente para almacenar datos históricos que
posteriormente se pueden utilizar para estudiar el
comportamiento de un conjunto de datos a través del tiempo,
realizar proyecciones y tomar decisiones.
• Bases De Datos Dinámicas:
Estas son bases de datos donde la información almacenada se
modifica con el tiempo, permitiendo operaciones como
actualización, borrado y adición de datos, además de las
operaciones fundamentales de consulta.
12. Modelos De Bases De Datos
Un modelo de datos es básicamente una "descripción" de algo
conocido como contenedor de datos (algo en donde se guarda la
información), así como de los métodos para almacenar y recuperar
información de esos contenedores.
Los modelos de datos no son cosas físicas: son abstracciones que
permiten la implementación de un sistema eficiente de base de
datos; por lo general se refieren a algoritmos, y conceptos
matemáticos.
Esto es algo
físico, se ve,
se toca, etc…
A
B
S
T
R
A
E
R
Esto lo
entiende la
máquina, son
datos
almacenados
I
N
F
O
R
M
A
C
I
Ó
N
13. MODELOS DE BASES DE DATOS
• Bases De Datos Jerárquicas:
Éstas son bases de datos que, como su nombre indica,
almacenan su información en una estructura jerárquica. En
este modelo los datos se organizan en una forma similar a un
árbol (visto al revés), en donde un nodo padre de información
puede tener varios hijos. El nodo que no tiene padres es
llamado raíz, y a los nodos que no tienen hijos se los conoce
como hojas.
PADRE
HIJO HIJO HIJO
HIJO
14. MODELOS DE BASES DE DATOS
• Base De Datos De Red:
Éste es un modelo ligeramente distinto del jerárquico; su
diferencia fundamental es la modificación del concepto de
nodo: se permite que un mismo nodo tenga varios padres
(posibilidad no permitida en el modelo jerárquico).
• Bases De Datos Transaccionales:
Son bases de datos cuyo único fin es el envío y recepción de
datos a grandes velocidades, estas bases son muy poco
comunes y están dirigidas por lo general al entorno de análisis
de calidad, datos de producción e industrial, es importante
entender que su fin único es recolectar y recuperar los datos a
la mayor velocidad posible.
15. MODELOS DE BASES DE DATOS
• Bases De Datos Relacionales:
Éste es el modelo utilizado en la actualidad para modelar
problemas reales y administrar datos dinámicamente.
Estas relaciones podrían considerarse en forma lógica como
conjuntos de datos llamados "tuplas". Pese a que ésta es la
teoría de las bases de datos relacionales creadas por Codd.
• Bases De Datos Multidimensionales:
Son bases de datos ideadas para desarrollar aplicaciones muy
concretas, como creación de cubos olap Básicamente no se
diferencian demasiado de las bases de datos relacionales.
16. MODELOS DE BASES DE DATOS
• Bases De Datos Orientadas a Objetos:
trata de almacenar en la base de datos los objetos completos
(estado y comportamiento).
Una base de datos orientada a objetos es una base de datos
que incorpora todos los conceptos importantes del paradigma
de objetos:
Encapsulación
Herencia
Polimorfismo
En bases de datos orientadas a objetos, los usuarios pueden
definir operaciones sobre los datos como parte de la
definición de la base de datos.
17. MODELOS DE BASES DE DATOS
• Bases De Datos Documentales:
Permiten la indexación a texto completo, y en líneas generales
realizar búsquedas más potentes. Tesaurus es un sistema de
índices optimizado para este tipo de bases de datos.
• Bases De Datos Deductivas:
Es un sistema de base de datos pero con la diferencia de que
permite hacer deducciones a través de inferencias. Se basa
principalmente en reglas y hechos que son almacenados en la
base de datos. Las bases de datos deductivas son también
llamadas bases de datos lógicas, a raíz de que se basa en lógica
matemática.
18. AHORA QUE SABEMOS MÁS DE
BASES DE DATOS…..
Pensemos un poco, la
información a crecido
mucho, la capacidad de
almacenar más y más
datos se hiso
necesaria, hoy existe
muchas soluciones, para
ello analizaremos
algunos conceptos…
19. ¿Qué es HADR?
Sus siglas en inglés significan High Availability Disaster Recovery.
Es una característica de replicación de datos que brinda una
solución de Alta Disponibilidad cuando surge una falla parcial o
total en uno de los servidores principales. Es una solución que
soporta un Servidor como Primario y hasta tres Servidores como
Secundarios.
La replicación de la información se hace a través de los archivos
log de transacciones.
20. ¿Qué es PureScale?
Es una arquitectura basada en Clúster. Un Clúster es un conjunto
de varios ordenadores unidos por una red de alta velocidad, de
tal forma que es visto como
un solo computador más
potente.
• Sirve para sistemas 24/7
• Agrega y quita miembros
fácilmente
• El núcleo del sistema
es una arquitectura de disco
compartido
21. ¿Qué es DPF (Data Partitioning
Feature)?
Es una característica de DB2, la cual permite hacer el
particionamiento de base de datos. Con esta característica se
mejora el desempeño y la escalabilidad de grandes bases de datos.
Cuando existen grandes volúmenes de información en una base de
datos, esta es una de las soluciones a implementar
22. ¿Qué es DPF (Data Partitioning
Feature)?
En un ambiente DPF los registros de cada tabla son distribuidos en
las diferentes particiones (DB2 utiliza un algoritmo para determinar
en qué partición deberá estar la información). DPF es una
característica de escalabilidad.
23. ¿Qué es Table Partitioning?
Es el mismo concepto que DPF solo que esto aplica para tablas
dentro de una base de datos, es decir, es el particionamiento
de los datos de una tabla en un subconjunto de datos.
En la mayoría de los casos las bases de datos conservan
información de muchos años atrás (históricos) lo que provoca
que al ejecutar consultas sobre esa tabla el desempeño se vea
afectado y el consumo de los recursos sea mucho mayor.
24. ¿Qué es MDC (Multi-Dimension
Clustering)?
Proporciona un método elegante para permitir que los datos
de una tabla puedan ser agrupados físicamente en varias
dimensiones simultáneamente de una manera flexible y
automática. Esto puede mejorar mucho el desempeño de las
consultas.
Similar a DPF el motor de la base de datos consultará
segmentos específicos de datos incrementando el desempeño
en las consultas.
25. ¿Qué es la Compresión de datos?
Es básicamente la reducción del volumen de información
utilizando la menor cantidad posible de espacio. Hay muchas
técnicas y algoritmos que se han implementando en las bases
de datos.
1. Compresión de registros.
2. Compresión de tablas.
3. Compresión de Índices.
4. Compresión de tablas temporales.
5. Compresión de objetos e imágenes.
6. Compresión de documentos XML.
7. Compresión de Log de transacciones.
8. Compresión de backup.
26. ¿Qué es un Data Warehouse?
Es un almacén de datos que es utilizado para explotar grandes
volúmenes de información (entre ellos información histórica) para
efectos de análisis que ayuden a la toma de decisiones en las
grandes empresas.
Las bases de datos orientadas a Data Warehouse no contienen
datos actuales, es decir, no es una base de datos transaccional OLTP,
es un tipo de base de datos OLAP.
Con las nuevas necesidades y el avance tecnológico se han
modificado las bases de datos y también se han creado nuevas
arquitecturas de solución .
. Para hacer la integración de la información se requieren de
herramientas que nos permitan hacer la concentración de la
información en el Data Warehouse. Las herramientas son variadas y
existen diferentes proveedores, estas son conocidas como
herramientas ETL.
27. ¿Qué es un ETL?
Sus siglas en inglés significan Extract Transform Load. Extract
es el proceso de extraer la información que puede venir de
diferentes fuentes de datos o bases de datos de distintos
proveedores.
Una herramienta que ayuda en este tipo de actividades es el
producto de IBM InfoSphere DataStage.
http://www-03.ibm.com/software/products/en/ibminfodata/
28. ¿Qué es un Data Mart?
• Es simplemente un subconjunto de datos de un Data
Warehouse para un área específica.
• Los Data Mart nos permiten hacer una separación de los
datos para funciones específicas, usuarios específicos y áreas
específicas.
• La información que alimenta a un Data Mart también pueden
provenir de una base datos transaccional.
29. ¿Qué modelo de datos se utiliza en un
Data Warehouse o Data Mart?
• Los bases de datos para Data Warehouse o Data Mart manejan
muchos volúmenes de información y dependiendo del diseño de
cada una de estas, los datos ya estarán calculados o
precalculados lo que permite que los tiempos de respuestas sean
mucho mejor.
• Uno de los modelos comúnmente utilizados es el modelo Star
Schema o un esquema en estrella.
• Un esquema en estrella es aquel que tiene una tabla de hechos
también llamada Fact Table y alrededor sus dimensiones.
• Las dimensiones están relacionadas a la tabla de hechos a través
de una llave primaria.
• Este tipo de esquema es ideal para bases de datos de tipo OLAP
y Data Mart por su simplicidad y la velocidad para hacer análisis.
30. Informix Warehouse Accelerator - IWA
Sus siglas en inglés son Informix Warehouse Accelerator el
cual es un optimizador de cargas de trabajo que permite la
integración en los procesos operacionales para conducir
estrategias ganadoras. Acelera las consultas con tiempos de
respuestas sin precedentes. El IWA es una tecnología de
vanguardia para mejorar el performance y ofrece las
siguientes capacidades:
1. Compresión extrema necesaria porque la memoria RAM es
el factor limitante.
2. Base de datos por renglón para cargas de datos
transaccionales (OLTP) y por Columna para accesar a datos
vía el acelerador para OLAP.
31. Informix Warehouse Accelerator - IWA
3. Tercera generación de bases de datos en memoria. Evita la
Entrada/Salida al disco debido a que la compresión permite
tener los datos residentes en memoria.
4. Frecuencia de particionamiento
5. Paralelismo masivo. Todos los procesadores son utilizados
en las consultas.
6. Evaluación de predicados con datos comprimidos lo que
incrementa el desempeño en las consultas.
7. Actualización automática a nivel de partición lo cual
permite refrescar en los Data Mart solo los datos que han
cambiado.
8. Soporte para datos de series de tiempos. Se pueden
analizar en memoria los datos que vienen de censores
inteligentes, medidas, localización GPS, u otros dispositivos en
tiempo real.
33. ¿Qué son los PureSystem?
Son una nueva clase de sistemas integrados expertos que
están diseñados, prefabricados, configurados y optimizados
para ejecutar cargas de trabajo muy complejas y especificas.
Existen tres familias de PureSystem los cuales están diseñados
para dar solución a los problemas que enfrentan los diferentes
tipos de cargas de trabajo, cambiando la economía y la
experiencia de las tecnologías de la información.
34. ¿Qué son los PureSystem?
1. PureFlex: Estos sistemas proporcionan servicios de
infraestructura y permiten construir su propia aplicación o
entornos de infraestructura en un entorno escalable
2. PureApplications: Esta basado en los mismos principios de
PureFlex y proporciona servicios de plataforma. Se integra
todo el Software y las herramientas que se necesitan para
construir una plataforma de aplicaciones altamente
escalable. El objetivo es ofrecer una plataforma de
aplicaciones tipo Web.
3. PureData: Por ultimo, estos sistemas son desarrollados
para ofrecer servicios de datos a las aplicaciones
independientemente de que se trate de aplicaciones
transaccionales como punto de venta o CRM, o sistemas
de análisis como perdida de clientes y/o administración de
campañas.
35. La tendencia – Bases de datos en
Memoria
Uno de los recursos más costoso es el almacenamiento de la
información y hoy con el nuevo concepto de Big Data la
necesidad de manejar grandes volúmenes de información se
ha incrementado. El acceso a disco es el acceso más lento para
obtener la información.
La tendencia es tener más datos en memoria de manera
comprimida, con lo anterior se reduce el acceso a disco y se
incrementa el desempeño para el análisis de la información.
36. Tipos de OLAP
ROLAP
Sus siglas en inglés significan Relational OLAP. En ROLAP los
datos son almacenados en un Star Schema con tablas de
Hechos y Dimensiones. Las consultas SQL analíticas tienen un
gran número de Joins, Scan y enormes cantidades de datos
agregados.
37. Tipos de OLAP
MOLAP
Sus siglas en inglés significan Multidimentional OLAP. Es la
descripción de un servidor OLAP que almacena el cubo
completo OLAP en memoria. Normalmente
las agregaciones son precalculas y
almacenadas en memoria. Esto trae
como resultado respuestas muy
rápidas a consultas de datos y
permite una alta concurrencia
en ejecución de consultas.
38. Tipos de OLAP
HOLAP
Sus siglas en inglés significan Hybrid OLAP. Como sus siglas lo
indican es una combinación de
ROLAP Y MOLAP. Combina
muchas de las características
de ROLAP Y MOLAP donde no
existe límite del tamaño de
datos como ROLAP y
proporciona todas las
capacidades para obtener
detalles de la información, con
una alta concurrencia y alto
rendimiento para los datos
solicitados.
39. ¿Qué es IBM BLU Acceleration for
Cloud?
Es una solución de Data Warehouse y Análisis en la Nube. El
concepto de Nube de una manera simple son los servicios
informáticos que se ofrecen a través de Internet. Una de las
ventajas de estas arquitecturas es que las empresas ya no
requieren de una infraestructura propia y permite a los
usuarios accesar a las aplicaciones desde cualquier punto
donde se encuentren. Para los programadores permite el
rápido desarrollo de aplicaciones.
40. ¿Qué es Cloudant?
Es una base de datos de como servicio (DBaaS) la cual permite
centrarse en el desarrollo rápido de aplicaciones en Internet y
aplicaciones móviles en lugar de preocuparse por la expansión
y gestión de la base de datos por su cuenta. Tiene alta
disponibilidad, es duradera y contiene amplias funciones.
41. ¿Qué es Cloudant?
La base de datos Cloudant es la primera plataforma de gestión
de datos para aprovechar la disponibilidad, escalabilidad, y el
alcance de la Nube para crear una red de distribución global
de datos (DDN) que permita a las aplicaciones estar
disponibles para los usuarios donde quiera que se encuentre.
42. ¿Qué es JSON?
Sus nomenclaturas en inglés significan JavaScript Object
Notation, el cual es un formato ligero para el intercambio de
datos. JSON está basado en un subconjunto del lenguaje de
programación JavaScript. Su simplicidad ha hecho que su uso
se esté ampliando, algo similar al manejo de datos tipo XML
donde es fácil de implementar, de leer y de utilizar.
También es independiente del lenguaje de programación ya
que muchos lenguajes tienen características para mapear con
JSON. Se emplea en ambientes donde el flujo de los datos es
de vital importancia como por ejemplo Google, Yahoo, etc.
que atienden a millones de usuarios. JSON está soportado en
DB2 10.5 e Informix 12.1
44. JASON
La importancia de JSON es que ayuda a habilitar la nueva era de
aplicaciones móviles, sociales y Nube convirtiéndose así en uno de
los lenguajes para la Web. Solo soporta seis tipos de valores y son:
1. Cadena (String)
2. Numérico
3. Booleano
4. Valores especiales como el valor “nulo”
5. Objetos
6. Arreglos
No soporta estructuras de datos cíclicos, es decir, utilizar un
conjunto de acciones que se pueden ejecutar una o varias
veces (Para “For 1 to 10…” , Mientras “While v_cont 100…”, Repetir
“Repeat … ” ).
45. Internet de las cosas (IoT)
Todo este mundo de información hace el Internet de cosas
creando nuevas oportunidades en muchas áreas.
. El objetivo es darle valor a la información para ofrecer lo que
quiere el consumidor, para identificar fraudes, optimizar
reabastecimiento de inventarios, etc.
El Internet esta accesible 24x7 los 365 días del año y la
información está ahí como una oportunidad de hacer
negocio. Este mundo de información no puede ser explotada
por cualquier manejador de base de datos lo cual hace
complicado el manejo y análisis de este mundo de
información. Las razones son las siguientes:
46. Internet de las cosas (IoT)
1. Los datos son generados de diferentes sistemas, con
formatos complejos, diferentes fuentes y tipos de datos,
estructurados, no estructurados y vienen de diferentes
contextos.
2. Son difíciles de analizar por el volumen de información,
requieren más procesamiento, modelado de datos, análisis
complejo de textos y correlación de datos a través de los
distintos.
3. Usted necesita ser capaz de visualizar la información para
actuar sobre ella. Se requieren sofisticados algoritmos de
búsqueda para tomar decisiones.
47. IBM Informix – Base de datos
inteligente para IoT
IBM Informix es una base de datos inteligente para resolver
los problemas de IoT. Sus características únicas le permiten
que funcione en dispositivos periféricos y también en la Nube.
En la Nube, Informix tiene la escalabilidad y el rendimiento
para servir como plataforma de análisis avanzados que
consolidan la información de millones de dispositivos.
49. Internet de las cosas (IoT)
Todo este mundo de información hace el Internet de cosas
creando nuevas oportunidades en muchas áreas.
. El objetivo es darle valor a la información para ofrecer lo que
quiere el consumidor, para identificar fraudes, optimizar
reabastecimiento de inventarios, etc.
El Internet esta accesible 24x7 los 365 días del año y la
información está ahí como una oportunidad de hacer
negocio. Este mundo de información no puede ser explotada
por cualquier manejador de base de datos lo cual hace
complicado el manejo y análisis de este mundo de
información. Las razones son las siguientes: