Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Base de datos
1.
2. De una manera simple, es un contenedor que
permite almacenar la información de forma
ordenada con diferentes propósitos y usos.
Por ejemplo, en una base de datos se puede
almacenar información de diferentes
departamentos (Ventas, Recursos Humanos,
Inventarios, entre otros). El almacenamiento de
la información por sí sola no tiene un valor,
pero si combinamos o relacionamos la
información con diferentes departamentos nos
puede dar valor.
¿Qué es una base de datos?
3. Existen diferentes tipos de bases de datos pero
las más comunes son las OLTP y OLAP.
• Las bases de datos de tipo OLTP (On Line
Transaction Processing) también son
llamadas bases de datos dinámicas lo que
significa que la información se modifica en
tiempo real, es decir, se insertan, se eliminan,
se modifican y se consultan datos en línea
durante la operación del sistema. Un ejemplo
es el sistema de un supermercado donde se
van registrando cada uno de los artículos que
el cliente está comprando y a su vez el
sistema va actualizando el Inventario.
Tipos de bases de datos
4. • Las bases de datos de tipo OLAP (On Line
Analytical Processing) también son
llamadas bases de datos estáticas lo que
significa que la información en tiempo real
no es afectada, es decir, no se insertan, no
se eliminan y tampoco se modifican datos;
solo se realizan consultas sobre los datos
ya existentes para el análisis y toma de
decisiones. Este tipo de bases de datos
son implementadas en Business
Intelligence para mejorar el desempeño de
las consultas con grandes volúmenes de
información.
5. Cuando surgen las bases de datos el tipo de información que
se podía almacenar era de tipo estructurada. La información
es almacenada en un objeto llamado “Tabla” la cual nos
permite organizar la información. Por ejemplo, la tabla de
“Empleados” contiene información relacionada al
#Empleado, Nombre, Apellido, #Seguro Social, etc. Cada uno
de estos elementos en una base de datos recibe el nombre
de “Campo” y el conjunto de estos elementos recibe el
nombre de “Registro” (También llamado Columna y Renglón,
Hilera o Fila). Existen otras bases de datos que permiten
almacenar diferentes tipos de documento, como por ejemplo:
Cloudant.
Tipo de información que se puede almacenar
6. En el manejo de la información nace el concepto Big Data; que
es el manejo de grandes volúmenes de información que vienen
de diferentes fuentes de datos (Estructurados, No
estructurados, XML, HTML, etc.) de una manera rápida sin
afectar la disponibilidad de la información y operación de los
sistemas.
7. Cuando se crea una base de datos y se inicia su operación el
volumen de la información es mínima y el desempeño de la
aplicación y base de datos es óptima. Sin embargo conforme
pasa el tiempo el volumen de información incrementa y en
consecuencia surgen los siguientes problemas:
1. Problemas de espacio en disco.
2. Incrementos de costo en almacenamiento y procesamiento.
3. Problemas de desempeño en las consultas.
4. Fallas en el aplicativo afectando la disponibilidad de los
datos.
5. Problemas con la base de datos y la pérdida de información.
Información a través del tiempo
8. Sus siglas en inglés significan High Availability Disaster Recovery.
Es una característica de replicación de datos que brinda una
solución de Alta Disponibilidad cuando surge una falla parcial o
total en uno de los servidores principales. Es una solución que
soporta un Servidor como Primario y hasta tres Servidores como
Secundarios. Si el servidor primario falla, uno de los servidores
secundarios tomará el control y pasará a ser ahora el servidor
primario. La replicación de la información se hace a través de los
archivos log de transacciones.
Ventajas
• Minimiza el impacto de interrupciones planeada y no planeadas.
• Permite la actualización del software sin interrumpir la
operación.
• Para el aplicativo es transparente, no se requiere modificar la
aplicación.
• No se requiere Hardware especializado.
• Fácil administración y configuración.
¿Qué es HADR?
9. Es una arquitectura basada en Clúster. Un Clúster es un
conjunto de varios ordenadores unidos por una red de alta
velocidad, de tal forma que es visto como un solo computador
más potente.
Ventajas
• Evitar riesgos y costos en cambios a la aplicación.
• Diseñado para sistemas que requieren de disponibilidad
continua (24x7). Si uno o varios miembros fallan la
transacción y operación del sistema continua.
• Utiliza la misma arquitectura del indiscutible estándar de
Oro, los Sistemas Z.
• Agregar o quitar miembros de una manera fácil.
• No se requiere tunear la infraestructura de la base de datos.
• Balanceo automático de cargas de trabajo.
• Construido y disponible en Power Systems y servidores
System x.
• El núcleo del sistema es una arquitectura de disco
compartido.
¿Qué es PureScale?
10. Permite hacer el particionamiento de base de datos. Con esta
característica se mejora el desempeño y la escalabilidad de
grandes bases de datos. Cuando existen grandes volúmenes
de información en una base de datos, esta es una de las
soluciones a implementar. Cada partición de base de datos
tiene su propio conjunto de recursos informáticos incluyendo
CPU, Memoria y unidades de almacenamiento. En un ambiente
DPF los registros de cada tabla son distribuidos en las
diferentes particiones. DPF es una característica de
escalabilidad.
DPF acepta diferentes configuraciones:
1. Discos compartidos.
2. Discos dedicados.
3. Permite el uso de particiones lógicas y físicas.
4. Los comandos para la administración de la base de datos
son ejecutados en cada una de las particiones de forma
automática y transparente.
5. Es transparente para el aplicativo
¿Qué es DPF (Data Partitioning Feature)?
11. Es el mismo concepto que DPF solo que esto aplica para tablas dentro
de una base de datos, es decir, es el particionamiento de los datos de
una tabla en un subconjunto de datos. En la mayoría de los casos las
bases de datos conservan información de muchos años atrás
(históricos) lo que provoca que al ejecutar consultas sobre esa tabla el
desempeño se vea afectado y el consumo de los recursos sea mucho
mayor.
Ventajas
• Incrementa el desempeño de las consultas. • Mejor optimización para
los costos de almacenamiento. • Rápida creación y/o eliminación de
particionamiento de datos. • No afecta la disponibilidad de los datos al
agregar o quitar particiones. • Incrementa el tamaño de las tablas. Las
tablas están limitadas en almacenar un monto máximo de datos,
utilizando Table Partitioning podemos incrementar el tamaño de la tabla
mediante el uso de diferentes particiones.
¿Qué es Table Partitioning?
12. Proporciona un método elegante para permitir que
los datos de una tabla puedan ser agrupados
físicamente en varias dimensiones
simultáneamente de una manera flexible y
automática.
Ventajas
• Reduce el gasto de mantenimiento en los datos
tales como reorganizaciones y mantenimiento de
índices durante la creación, eliminación y
actualización de datos. • Pensado inicialmente
para Data Warehouse y bases de datos con
grandes volúmenes de información, pero también
puede ser utilizado en bases de datos de tipo
OLTP.
¿Qué es MDC (Multi-Dimension Clustering)?
13. Es básicamente la reducción del volumen de información utilizando la
menor cantidad posible de espacio. Hay muchas técnicas y algoritmos
que se han implementando en las bases de datos, sin embargo una
ventaja competitiva de DB2 es que adicionalmente incluye la
compresión de los distintos tipos de objetos.
1. Compresión de registros.
2. Compresión de tablas.
3. Compresión de Índices.
4. Compresión de tablas temporales.
5. Compresión de objetos e imágenes.
6. Compresión de documentos XML.
7. Compresión de Log de transacciones.
8. Compresión de backup.
¿Qué es la Compresión de datos?
14. Ventajas
• Reduce los costos de almacenamiento.
• Incrementa el performance en las consultas.
• Reduce la Entrada/Salida al disco.
• Reducción de costos de energía.
• Trabajar con datos en memoria y con datos
comprimidos.
En la siguiente figura se muestra un ejemplo de cómo
se realiza la compresión con base a patrones de
repetición. Para la compresión de datos se utiliza un
diccionario donde se almacenará un digito en
hexadecimal que representará los datos que se
repiten. Estos dígitos en hexadecimal reemplazarán a
los datos en la tabla.
15. Es un almacén de datos que es utilizado para explotar
grandes volúmenes de información (entre ellos información
histórica) para efectos de análisis que ayuden a la toma de
decisiones en las grandes empresas. Las bases de datos
orientadas a Data Warehouse no contienen datos actuales, es
decir, no es una base de datos transaccional OLTP, es un tipo
de base de datos OLAP. Se ha mencionado que las bases de
datos tienen muchos retos y uno de ellos es que no se puede
utilizar la misma base de datos para transacciones y para
efectos de análisis.
¿Qué es un Data Warehouse?
16. Sus siglas en inglés significan
Extract Transform Load. Extract es el
proceso de extraer la información
que puede venir de diferentes
fuentes de datos o bases de datos
de distintos proveedores.
Transform es el proceso de
transformar los datos que se están
extrayendo antes de ser
almacenados en el Data Warehouse.
Por último, el Load es el proceso de
la carga de los datos ya
transformados hacia el Data
Warehouse.
¿Qué es un ETL?
17. Es simplemente un subconjunto de
datos de un Data Warehouse para un
área específica. En un Data
Warehouse se tiene la información
concentrada de una empresa y de
todos los departamentos. Los Data
Mart nos permiten hacer una
separación de los datos para
funciones específicas, usuarios
específicos y áreas específicas. La
información que alimenta a un Data
Mart también pueden provenir de una
base datos transaccional
¿Qué es un Data Mart?
18. Son una nueva clase de sistemas integrados expertos que están diseñados,
prefabricados, configurados y optimizados para ejecutar cargas de trabajo
muy complejas y especificas. Las ventajas que ofrecen este tipo de sistemas
son:
1. Construido con base a la colección de conocimientos colectivos de miles
de implementaciones, mejores practicas, experiencia de socios de
negocios y proveedores.
2. Integrados por diseño. Todos los componentes de Hardware y Software
están perfectamente integrados y sincronizados para las cargas de trabajo
que va a ejecutar.
3. Proporciona una perfecta sincronía entre el Hardware y Software ya que
vienen previamente diseñados, integrados, configurados. Al instalarlo y
conectarlo a la red usted tiene un sistema listo para operar.
4. Se obtiene valor en cuestión de días ya que la experiencia de los expertos
está incorporada junto con la integración de los sistemas.
¿Qué son los PureSystem?
19. Existen 3 PureSystem los cuales están diseñados para dar solución a los problemas
que enfrentan los diferentes tipos de cargas de trabajo, cambiando la economía y la
experiencia de las tecnologías de la información.
• PureFlex: Estos sistemas proporcionan servicios de infraestructura y permiten
construir su propia aplicación o entornos de infraestructura en un entorno escalable,
de alta disponibilidad y fácil de mantener.
• PureApplications: Esta basado en los mismos principios de PureFlex y proporciona
servicios de plataforma. Se integra todo el Software y las herramientas que se
necesitan para construir una plataforma de aplicaciones altamente escalable. El
objetivo es ofrecer una plataforma de aplicaciones tipo Web.
• PureData: Sistemas son desarrollados para ofrecer servicios de datos a las
aplicaciones independientemente de que se trate de aplicaciones transaccionales
como punto de venta o CRM, o sistemas de análisis como perdida de clientes y/o
administración de campañas. Para datos específicos, aplicaciones OLTP, aplicaciones
y sistemas de análisis profundo entonces PureData es la solución
Los PureSystem
20. Los sistemas PureData tenemos diferentes dispositivos PureData:
• Sistemas PureData para Hadoop: Este dispositivo está optimizado para almacenar,
catalogar, analizar y transformar grandes volúmenes de información en muchos
formatos diferentes. También se puede utilizar para mantener mayores datos
relacionados que se acceden con menor frecuencia desde un Data Warehouse, por
lo tanto mantiene un fácil acceso sin ocupar espacio y recursos en el Data
Warehouse.
• Sistemas PureData para transacciones: Este dispositivo está diseñado para el
comercio electrónico, comercio Web transaccional. Como por ejemplo, las
aplicaciones puntos de venta donde se escanea un código y a través de ese él se
determina su precio. También conocido como servicios de cluster de bases de
datos optimizado para el rendimiento y escalabilidad transaccional.
• Sistemas PureData para analíticos: Este dispositivo tiene una optimización
diferente debido a que hay una interacción con la base de datos, con la memoria, y
optimiza de forma diferente las cargas de trabajo para análisis y Data Warehouse.
Esto es para aplicaciones como el análisis de clientes, análisis predictivo, alta
velocidad de análisis en datos (petabyte) con la máxima simplicidad
PureData