Parámetros de Perforación y Voladura. para Plataformas
Actividad 4
1. ACTIVIDAD #4
1. https://www.youtube.com/watch?v=WgAakVRAAwM
¿Qué es big data?
R/es la gran cantidad de datos a gran escala almacenados para encontrar
patrones repetitivos.
2. ¿Big data y minería de datos son los mismo?
R/ no son lo mismo debido a que big data es la cultivación de datos esto
quiere decir que en vez de acabaros se van agrandando su volumen;
minería de datos se refiere a la extracción de datos.
3. ¿en qué consiste las 4 dimensiones del big data o las 4v?
R/ las cuatro dimensiones del big data fueron formuladas por Máquense en
el año 2006 y lego reformadas por IBM en el 2012:
V= volumen (grandes cantidades de datos)
V= velocidad (lo rápido con que aparecen nuevos datos)
V= variedad (los múltiples formatos de donde salen los datos)
V= veracidad (este término se refiere que uno debe desconfiar a veces de
los datos que obtiene solo se creerá si tiene algo comprobado o viene de
una fuente confiable)
4. Malte Spitz, que detecto cuando solicito información de su empresa
telefónica.
R/ el descubrió que en un periodo de 5 meses habían rastreados todas sus
coordenadas geográficas; 35000 veces, en estas coordenadas se pudo dar
cuenta que registraban a la hora que salía de casa, de donde a donde se
movilizaba, cuanto tiempo duraba en un lugar, a quien llamaba y que
cantidad de datos gastaba.
5. ¿considera que la iniciativa Open Data puede ayudar al desarrollo de
Colombia?
R/ si puede ayudar ya que si los desarrolladores y empresarios pueden
tener acceso a los datos que el gobierno tiene tendrán la capacidad de
ayudar a otras personas; y puede ayudar al progreso tanto económico
como personal y social.
6. ¿hay oportunidad de ejercer, al especializarse en gestión de la información?
R/ si ya que como hemos visto los datos van creciendo día a día con mayor
rigurosidad va naciendo la necesidad de sabes gestionar y darle función a
aquellos datos de la información
2. 7. ¿Consulte y describa cada paso del ciclo de la vida de un sistema de
inteligencia de negocios?
R/ ciclo de la vida
1. Requisitos de negocios: se debe especificar de forma clara y precisa las
funciones que se esperan de la bodega de datos; teniendo en cuenta las
expectativas de los usuarios, tanto a nivel operativo como gerencial y del
mismo administrador de base de datos, identificar las temáticas, objetivos
de área, dimensiones, etc.
2. Modelado dimensional: en esta etapa hay que pasar de un modelado
relacional de datos a un modelado dimensional. Para determinar los
campos se deben considerar los siguientes ítems:
Tabla de dimensiones
o Debe contener una clave simple no relacionada con la llave del
negocio, normalmente se refiere a llaves auto numéricas. o Sus
campos deben ser descriptores que complementen la
información y representan los niveles de agregación. o Debe
incluir las claves del negocio. o Siempre debe existir una
dimensión temporal.
o Deben ser claras y explicitas ya que representan la interfaz que
tendrán los usuarios para navegar por la información.
3. o No se debe escatimar en cuanto al número de atributos para la
tabla de dimensiones, ya que el número de registros que
contendrá es mínimo respecto al de la tabla de hechos.
o Las dimensiones de fechas pueden tener diversas formas de
representarse.
o El número de dimensiones depende del modelo dimensional
adoptado, pero si se encuentra un número muy elevado puede
ser que algunas no son independientes y deberían agruparse.
o En algunos casos se requiere normalizar las dimensiones,
generándose un modelo copo de nieve.
o Deberían ayudar a responder las siguientes preguntas: ¿qué?,
¿quién?, ¿por qué?, ¿dónde? y ¿cuándo?
Tabla de Hechos
o Debe contener una clave propia, independiente de las claves
de negocio.
o Los campos representan las métricas, por lo tanto son
numéricos y aditivos (no se almacenan valores individuales,
solo totales y subtotales)
o Contiene los campos de referencia hacia las tablas de
dimensiones.
o Cada fila corresponde a una medida
o Si se requiere calcular porcentajes y proporciones deben
almacenarse el numerador y el denominador.
o No tienen valores nulos.
o Existen algunas tablas sin hechos (FactLess) que se utilizan
para relacionar las dimensiones y deben contener un campo de
hecho ficticio con valor por defecto igual a uno (1).
3. Diseño y desarrollo de procesos ETL
E (EXTRACTION) T(TRANSFORMATION) L (LOAD)
Extracción Limpieza Integración
Transformación Actualización
Como se observa en la gráfica el proceso ETL recoge información de
diferentes fuentes, transforma los datos convirtiendo en datos de calidad y
veracidad por ultimo carga, actualiza en la DW. El proceso extracción,
transformación y carga está compuesto por las siguientes etapas:
a) Extracción: Este proceso obtiene los datos físicamente de las
distintas fuentes de información utilizando técnicas y herramientas
ETL, para la selección del método es necesario tener en cuenta
algunas problemáticas de la extracción de datos como lo son el tipo
de plataforma, protocolos, juego de caracteres, tipos de datos, etc.
4. b) Limpieza: Al recuperar los datos en bruto, se requiere comprobar la
calidad de los mismos y corregir errores relacionados con campos
nulos, duplicados, inconsistencias en los datos, etc.
Etapas de la limpieza de datos:
Depurar los valores: Se pueden separar los datos de acuerdo
con la estructura de destino de los datos o la regla definida
para esto.
.Corregir: A partir de fuentes de datos externas se puede
verificar la información existente.
Estandarizar: A partir de formatos definidos por las reglas de
negocio, se sustituyen valores en los campos de datos.
Relacionar: Verifica en otras fuentes la existencia de datos
relacionados, para evitar duplicados.
Consolidar: A partir de la identificación de relaciones entre
registros, se llevan a una sola representación.
a) Transformación: Una vez que los datos se encuentran “limpios”, se
transforman de acuerdo con las reglas de negocio y las características de
las herramientas a utilizar.
b) Integración: En este proceso se realiza la carga de los datos y debe
validarse que los datos cargados en la bodega de datos son consistentes
con los que se encontraban en el medio transaccional.
c) Actualización: Este proceso es en el cual se determina la periodicidad con
la cual se van a añadir y sincronizar los nuevos datos a la Bodega de Datos
4. Diseño y construcción de cubos: Un cubo representa un subconjunto de
datos de la bodega almacenado en una estructura multidimensional. Para
proceder a la implementación de los cubos es necesario determinar el tipo
de cubo y la herramienta que se utilizará para ello. La construcción física de
las tablas de dimensiones y las tablas de hechos se realizan de acuerdo
con el modelo dimensional definido y la herramienta a utilizar, se ejecutan
los procesos ETL para poblar las tablas y se genera el cubo para obtener
las respuestas a los requerimientos definidos. Posteriormente se procede a
visualizar la información del cubo.
Opciones de almacenamiento:
Rendimiento: En este caso debe ser de tipo MOLAP (Multidimensional On-
Line Analytical Processing) almacenando en una base de datos
multidimensional tanto los datos como las agregaciones.
5. Capacidad:
ROLAP: los datos de los hipercubos así como las agregaciones se
encuentran dentro de una base de datos relacional
HOLAP: los datos se encuentran en una estructura relacional y los
agregados en una estructura multidimensional.
DOLAP: Los datos se encuentran en una base de datos multidimensional
almacenada en un equipo Cliente.
Detalles
5. Implementación de la Interfaz de usuario: Una vez que han sido construidos
los cubos se deben establecer las herramientas que permitirán la
visualización de la información, para lo cual se cuenta con diversidad de
posibilidades tales como:
Herramientas para la realización de informes, en las cuales participan
desarrolladores, quienes construyen de acuerdo con requerimientos
cambiantes de los usuarios, los informes que van siendo solicitados.
Herramientas OLAP, que proporcionan a partir de los SMBD aplicaciones
que permiten visualizar los datos desde diferentes contextos: informes,
graficas, estadísticas etc.
Vistas
de
Usuario
6. Aplicaciones de DashBoard, permitiendo la visualización sincrónica de
indicadores, referidos a objetivos o metas procedimentales.
Sistemas DSS, donde se permite utilizar diferentes niveles de análisis a la
información a partir de aplicaciones definidas para ello.
6. Plan de mantenimiento: Debido a la naturaleza dinámica de algunos datos,
es necesario establecer un plan de acción para considerar los ajustes o
reconstrucción de algunos de los objetos de la Bodega de datos. La
siguiente lista proporciona algunos de los elementos a considerar en el plan
de mantenimiento.
Modificación de datos de origen de las dimensiones. En este caso debe
analizarse si el cambio se asume para toda la historia del dato (p.e. cambia
la fecha de nacimiento del cliente) o si debe generarse un nuevo ciclo a
partir de la modificación del mismo (p.e. una sucursal cambia de
responsable).
Rendimiento. Se debe considerar el espacio ocupado en la bodega de
datos, por esto es posible que se haga necesario modificar las estructuras
de las tablas para aliviar el tamaño de los objetos en la bodega.
Subutilización de Tablas Agregadas. Aun cuando estas tablas
proporcionan una mejora en el rendimiento de las consultas es necesario
asegurarse que la herramienta BI que se está utilizando sea capaz de
aprovecharlas, de lo contrario los costes de mantenimiento y actualización
permanente de estas tablas solo harían más complejo el sistema.
7. Pruebas e implementación: En esta etapa se evalúa el modelo, partiendo
de los criterios de éxito que se establecieron en la primera etapa. El
proceso debe ser revisado a partir de los resultados obtenidos para
determinar si es necesario repetir alguna de las etapas anteriores.
7. Se evalúa el modelo respecto a los objetivos planteados y si no existen
restricciones de tiempo se prueba con un problema real, también debe
evaluarse respecto a objetivos diferentes a los inicialmente planteados.