Esta presentación es utilizada para enseñar distintas técnicas de manejo de datos a estudiantes de posgrado en carreras empresariales. El propósito es que tengan diversas habilidades para la gestión de información, tales como hacer pronósticos, manejar grandes volúmenes de datos, hacer informes gerenciales, aprender sobre minería de datos y otros.
2024 - 04 PPT Directiva para la formalizacion, sustento y registro del gasto ...
Herramientas para gestion de datos
1. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
(en colocaciones y captaciones)
Samir Homsi AragónSamir Homsi Aragón
Herramientas para el manejo
de grandes volúmenes de
cálculos y datos financieros
2. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
CONTENIDOCONTENIDOCONTENIDOCONTENIDO
Herramientas para el
manejo de grandes
volúmenes de
cálculos y datos
financieros
3. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Índice de avanceÍndice de avance
CONTENIDOCONTENIDO
Parte I. Estadística multivariada
1.1. Modelo Logit
1.2. Modelo Probit
Parte II. Bases multidimensionales
2.1. Preparación de datos
2.2. Cubos OLAP
2.3. Minería de datos
Parte III. Simulación
3.1. Modelo Montecarlo
4. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Tipos de problemasTipos de problemas
MOTIVO DE ESTA MATERIAMOTIVO DE ESTA MATERIA
1. Descripción de datos y resumen
La descripción y el resumen de datos apuntan a la descripción concisa de las
características de los datos, típicamente en forma elemental y agregada. Esto da al usuario
una descripción de la estructura de los datos. Por ejemplo, un minorista podría estar
interesado en el volumen de ventas de todas las salidas separado por categorías. Los
cambios y diferencias de un período anterior podrían ser resumidos y destacados. Esta
clase de problema estaría en lo mas bajo de la escala de problemas.
2. Segmentación
La segmentación apunta a la separación de los datos en subgrupos o clase significativos e
interesantes. Todos los miembros de un subgrupo comparten características comunes. Por
ejemplo, en el análisis de cesta de compras, uno podría definir los segmentos de cestas
según los artículos que ellos contienen.
3. Descripciones de concepto
Apunta a una descripción comprensible de conceptos o clases. Por ejemplo, una empresa
puede estar interesada en el estudio sobre sus clientes más leales y desleales. De una
descripción de concepto de estos conceptos la compañía infiere que podría estar hecho
para encontrar clientes leales o transformar clientes desleales a clientes leales.
5. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Tipos de problemasTipos de problemas
4. Clasificación
La clasificación asume que hay un conjunto de objetos caracterizados por algún atributo o
rasgo que pertenece a diferentes clases. Por ejemplo, intentando guardar créditos para
evaluar el riesgo de acreditar a un cliente nuevo. Esto puede ser transformado a un
problema de clasificación para crear dos clases, clientes buenos y clientes malos.
5. Predicción
Otro tipo de problema importante que ocurre en una amplia gama de usos es la predicción.
La predicción es muy similar a la clasificación.
La única diferencia es que en la predicción el atributo objetivo (la clase) no es un atributo
cualitativo discreto, pero es uno continuo.
6. Análisis de dependencia
El análisis de dependencia consiste en encontrar un modelo que describe dependencias
significativas (o asociaciones) entre artículos de datos o acontecimientos. Las
dependencias pueden ser usadas para predecir el valor de unos datos de artículo dada la
información sobre otros artículos de datos. Aunque las dependencias pueden ser usadas
para el modelado predictivo, aquellos son mas usados por su comprensión.
MOTIVO DE ESTA MATERIAMOTIVO DE ESTA MATERIA
6. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE IPARTE I
Estadística MultivariadaEstadística Multivariada
PARTE IPARTE I
Estadística MultivariadaEstadística Multivariada
Herramientas para el
manejo de grandes
volúmenes de
cálculos y datos
financieros
7. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Qué es la estadística?Qué es la estadística?
PARTE I. CONCEPTOS BASICOSPARTE I. CONCEPTOS BASICOS
La estadística es una ciencia formal que estudia la recolección, análisis e
interpretación de datos de una muestra representativa, ya sea para ayudar en la
toma de decisiones o para explicar condiciones regulares o irregulares de algún
fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional.
Sin embargo, la estadística es más que eso, es decir, es el vehículo que permite
llevar a cabo el proceso relacionado con la investigación científica.
Es transversal a una amplia variedad de disciplinas, desde la física hasta las
ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se
usa para la toma de decisiones en áreas de negocios o instituciones
gubernamentales.
8. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Críticas a la estadística?Críticas a la estadística?
PARTE I. CONCEPTOS BASICOSPARTE I. CONCEPTOS BASICOS
Hay una percepción general de que el conocimiento estadístico es intencionado
y frecuentemente mal usado, encontrando maneras de interpretar los datos que
sean favorables al presentador. Un dicho famoso, al parecer de Benjamin
Disraeli, es: «Hay tres tipos de mentiras: mentiras pequeñas, mentiras grandes
y estadísticas». El popular libro How to lie with statistics (Cómo mentir con las
estadísticas en la edición española) de Darrell Huff discute muchos casos de
mal uso de la estadística, con énfasis en gráficas malintencionadas. Al escoger
(o rechazar o modificar) una cierta muestra, los resultados pueden ser
manipulados; por ejemplo, mediante la eliminación selectiva de valores
atípicos (outliers). Este puede ser el resultado de fraudes o sesgos intencionales
por parte del investigador (Darrel Huff). Lawrence Lowell (decano de la
Universidad de Harvard) escribió en 1909 que las estadísticas, «como algunos
pasteles, son buenas si se sabe quién los hizo y se está seguro de los
ingredientes».
9. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Uso y tipo de herramientasConceptos básicos: Uso y tipo de herramientas
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
ANALISIS VARIABLE OBJETIVO # DE VAR. HERRAMIENTA
1
Tabla de frecuencia
unidimensional
CUALITATIVA 2
Tabla de frecuencia
unidimensional
N
Tabla de frecuencia
unidimensional
1 Box Plot
EXPLORATORIO CUANTITATIVA 2 Scatter Plot
N
Diagramas de individuos
ACP
1
MIXTA 2
Box Plot cuantitativo nominal
Scatter Plot cuantitativo
ordinal
N ACP, AFC
10. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Uso y tipo de herramientasConceptos básicos: Uso y tipo de herramientas
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
ANALISIS VARIABLE OBJETIVO # DE VAR. HERRAMIENTA
1
Gráficos, tablas de
frecuencia
CUALITATIVA 2
Gráficos, tablas de
frecuencia
N AFC
1
Gráficos, parametros de
posición, dispersión y
forma
DESCRIPTIVO CUANTITATIVA 2
Gráficos, covarianza,
correlación, regresión
N ACP, Cluster
1
MIXTA 2
N
11. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Uso y tipo de herramientasConceptos básicos: Uso y tipo de herramientas
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
ANALISIS VARIABLE OBJETIVO # DE VAR. HERRAMIENTA
1
Promedios, varianzas,
proporciones
ESTIMACION 2 Correlación, regresión
N
MANOVA, regresión
múltiple, correlación
canónica
1
Test de conformidad, test de
significación
INFERENCIAL TEST DE HIPOTESIS 2
Test de comparación, test de
significación
N
MANOVA, discriminante
canónico
1
Run test, Wilcoxon, Mann-
Whitney, Kruskall
NO PARAMETRICOS 2 Spearman, Kendall
N Kernell, redes neuronales
12. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: VariablesConceptos básicos: Variables
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
Cuantitativas Reales
Variables Nominal
Cualitativas Categóricas
Ordinal
13. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Análisis multivariante (AM)Conceptos básicos: Análisis multivariante (AM)
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
Cuando queremos examinar un sistema complejo de
actividades financieras o comerciales, muchas veces no es
suficiente utilizar técnicas univariantes y hay que ir al
empleo del AM. Cuando el número de variables que
influyen simultáneamente y de forma importante en el
problema que queremos tratar es elevado (no solamente una
o dos, sino un número elevado de variables), entonces
tenemos que utilizar el AM.
14. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Análisis multivariante (AM)Conceptos básicos: Análisis multivariante (AM)
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
El AM se puede definir como:
Las técnicas estadísticas utilizadas para tratar múltiples
variables que se deben analizar simultáneamente, y cuyos
efectos no tienen sentido si se interpretan por separado.
Son las técnicas estadísticas que miden, explican y predicen
relaciones entre más de dos variables cuando sus efectos no
tienen sentido si se interpretan por separado.
15. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Análisis multivariante (AM)Conceptos básicos: Análisis multivariante (AM)
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
Técnicas de independencia
16. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Análisis multivariante (AM)Conceptos básicos: Análisis multivariante (AM)
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
Técnicas de dependencia
C o r r . c a n ó n i c a
M E T R I C A
M A N O V A
N O M E T R I C A
E S C A L A I N D E P E N D I E N T E S
M E T R I C A
E S C A L A D E P E N D I E N T E S
V A R I A S D E P E D I E N T E S
R e la c ió n s im p l e
R E G R E S I O N
M E T R I C A
C O N J U N T O
N O M E T R I C A
E S C A L A I N D E P E N D I E N T E S
M E T R I C A
D I S C R I M .
M E T R I C A
L O G I T
N O M E T R I C A
E S C A L A I N D E P E N D I E N T E S
N O M E T R I C A
E S C A L A D E P E N D I E N T E S
U N A D E P E N D I E N T E
R e la c ió n s im p le
¿ C U A N T A S V A R I A B L E S S E U T I L I Z A N ?
D e p e n d i e n t e s
17. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Análisis multivariante: Regresión Logística BinariaAnálisis multivariante: Regresión Logística Binaria
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
Una variable binaria es aquella que sólo puede adquirir dos posibles valores
(Sí-No, 0-1, Verdadero-Falso, etc.). Las variables binarias constituyen un
subconjunto muy importante de las llamadas variables categóricas o
cualitativas, las cuales están muy presentes en la economía y las ciencias
sociales.
Cuando se pretende explicar, mediante un modelo de regresión, el
comportamiento de una variable (llamada variable endógena o dependiente) en
función de los valores que tomen otras (llamadas variables exógenas o
explicativas), suele utilizarse un modelo de regresión lineal múltiple. El modelo
lineal presenta ciertos problemas cuando la variable dependiente es binaria, lo
cual lleva a usar modelos de regresión no lineales, específicamente pensados
para realizar regresión con variables categóricas. Los modelos que
analizaremos aquí serán el Logit y el Probit.
18. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Análisis multivariante: Regresión Logística BinariaAnálisis multivariante: Regresión Logística Binaria
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
Las variables independientes Xj pueden tener distintos valores, sin embargo,
la variable dependiente Y sólo puede adquirir el valor 0 o 1. La curva de
regresión lineal no puede ajustarse a la función requerida, siendo que la
logística (LOGIT) y la función de distribución de una normal (PROBIT)
presentan una mayor proximidad.
19. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada
Fuente: Wikipedia
LOGIT- DefiniciónLOGIT- Definición
En matemáticas, especialmente aquellas aplicadas en estadística, el logit de un número p entre 0
y 1 es:
(La base de la función logaritmo usada aquí es de poca importancia en el presente artículo,
puesto que es mayor que 1, aunque el logaritmo natural con base e es usado a menudo.) La
función logit es la inversa del "sigmoide", o función "logística".
Si p es una probabilidad entonces p/(1 − p) es el correspondiente odds, y el logit de la
probabilidad es el logaritmo de los odds; similarmente la diferencia entre los logits de dos
probabilidades es el logaritmo del odds ratio (OR), obteniéndose así un mecanismo aditivo para
combinar odds-ratios:
20. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE I. Estadística Multivariada|PARTE I. Estadística Multivariada|
Fuente: Wikipedia
PROBIT - DefiniciónPROBIT - Definición
En probabilidad y estadística se llama función probit a la inversa de la función de distribución o
función cuantil asociada con la distribución normal estándar. La función tiene aplicaciones en
gráficos estadísticos exploratorios y modelos probit.
Para la distribución normal estándar (a menudo denotada por N(0,1)) la función de distribución
se denota comúnmente por Φ. Φ es una función sigmoide continua y creciente, cuyos dominio y
recorrido son la recta real y el intervalo (0, 1), respectivamente.
Por ejemplo, considérese el hecho de que la distribución N(0, 1) tiene un 95% de probabilidad
entre -1,96 y 1,96 y es simétrica en un entorno de cero. De ahí se deduce que Φ(-1,96) = 0,025 =
1 - Φ(1,96).
La función probit proporciona el cálculo inverso, generando un valor de una variable aleatoria
N(0, 1) asociado a una probabilidad acumulada bajo su curva. Formalmente, la función probit es
la inversa de Φ(z), denotada Φ-1
(p).
Siguiendo con el ejemplo, probit(0,025) = -1,96 = -probit(0,975).
En general, Φ(probit(p)) = p y probit(Φ(z)) = z
21. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE I. Estadística Multivariada|PARTE I. Estadística Multivariada|
EJEMPLOS DE APLICACIÓNEJEMPLOS DE APLICACIÓN
- Un banco que concede créditos a sus clientes quiere conocer la
probabilidad de impago para un futuro cliente
- Una empresa que va a iniciar su negocio en el sector textil
quiere conocer la probabilidad de éxito que tendrá su puesta en
funcionamiento.
- Un profesor quiere conocer la probabilidad de aprobar su
asignatura que tendrá un alumno.
- Un político o inversor está interesado en conocer el riesgo que
existe de producirse una crisis cambiaria en una determinada
economía.
22. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE I. Estadística Multivariada|PARTE I. Estadística Multivariada|
APLICACIÓN PRÁCTICAAPLICACIÓN PRÁCTICA
- Su aplicación requiere del uso de programas computacionales.
- Existen varios disponibles. El que se usará será XLSTAT,
como complemento de Excel.
- Como base de estudio de la aplicación de los modelos LOGIT
y PROBIT se usará la base de datos de estados financieros de
todas las entidades financieras de Bolivia con una muestra de
10 años.
23. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE IIPARTE II
Bases MultidimensionalesBases Multidimensionales
PARTE IIPARTE II
Bases MultidimensionalesBases Multidimensionales
Herramientas para el
manejo de grandes
volúmenes de
cálculos y datos
financieros
24. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Preparación de DatosPreparación de Datos
La transformación de grandes cantidades de datos en información
útil y conocimiento es una inminente necesidad para la industria y
la sociedad en general. Buscando cubrir esta necesidad surge el
proceso de descubrimiento de conocimiento en bases de datos
(Knowledge Discovery in Databases, KDD), el cual está
compuesto por varias etapas. Un conjunto de estas etapas es
conocido como preparación de datos y en la actualidad
representa la mayor parte del esfuerzo destinado en las
organizaciones al proceso de KDD. Sin embargo, llevar a cabo
esa preparación de datos no es una labor fácil.
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
25. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Medidas y VariablesMedidas y Variables
Cuantitativas Reales
Variables Nominal
Cualitativas Categóricas
Ordinal
Hay cuatro tipos de mediciones o escalas de medición en estadística:
•Las medidas de razón, en donde un valor cero y distancias entre diferentes mediciones
son definidas, dan la mayor flexibilidad en métodos estadísticos que pueden ser usados
para analizar los datos.
•Las medidas de intervalo tienen distancias interpretables entre mediciones, pero un
valor cero sin significado.
•Las medidas ordinales tienen imprecisas diferencias entre valores consecutivos, pero
un orden interpretable para sus valores.
•Las medidas nominales no tienen ningún rango interpretable entre sus valores.
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
26. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Proceso de Generación de Conocimiento - KDDProceso de Generación de Conocimiento - KDD
Recolección
de datos
Preparación
de datos
Análisis de
datos
Uso del
conocimiento
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
27. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Proceso de Preparación de DatosProceso de Preparación de Datos
Limpieza
Valores faltantes
Outliers
Errores
Transformación
Selección
Reducción
Gerencialización
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
28. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
TransformaciTransformación vs Gerencializaciónón vs Gerencialización
El proceso de transformación hace referencia al trabajo relacionado
con el vuelque de datos de un formato a otro. Ej.: Los datos con los
que se requiere trabajar están en formato pdf y quiere volcárselos a
formato Excel.
El proceso de gerencialización es el trabajo previo de acomodar los
datos en una forma que resulten más fácilmente analizables. Ej.:
Los datos del ejemplo anterior que ya están en Excel, posiblemente
sean un conjunto de números que sea preferible visualizarlos como
rangos o intervalos.
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
29. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Gerencialización de DatosGerencialización de Datos
TIPOS DE CAMPOS
DE INFORMACIÓN
•Numéricos
•Rangos
•Rangueables
•Extractables
•Información
•Calculable
Hechos y dimensiones
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
30. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Gerencialización de DatosGerencialización de Datos
titulos de columnas
títulosdefilas
x x x x x
x x x x x
x x x x x
x x x x x
x x x x x
x x x x x
x x x x x
x x x x x
x x x x x
x x x x x
x x x x x
X
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
31. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Gerencialización de DatosGerencialización de Datos
x x x x x
x x x x x
x x x x x
x x x x x
x x x x x
x x x x x
x x x x x
x x x x x
x x x x x
x x x x x
x x x x x
títulosdefilas
titulos de columnas
Dimensiones
Hechos
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
32. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
APLICACIÓN PRÁCTICAAPLICACIÓN PRÁCTICA
- Su aplicación requiere del uso de programas computacionales.
- Se usará Excel
- Se entregará al alumno una base de datos que requiere ser
gerencializada y la demostración de su utilidad será aplicando
tablas dinámicas.
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
33. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Cubos OLAP - Conceptos básicosCubos OLAP - Conceptos básicos
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Base de datos Multidimensional. Base de datos de estructura
basada en dimensiones orientada a consultas complejas y alto
rendimiento. (Oracle)
Las bases de datos multidimensionales se utilizan
principalmente para crear aplicaciones OLAP y pueden verse
como bases de datos de una sola tabla, su peculiaridad es que
por cada dimensión tienen un campo (o columna), y otro campo
por cada métrica o hecho. (Wikipedia)
34. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Cubos OLAPCubos OLAP
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
• Representa o convierte datos planos que se encuentran en
filas y columnas, en una matriz de N dimensiones.
Los atributos existen a lo largo de varios ejes o
dimensiones y la intersección de ellas representa el
valor que tomará el indicador.
35. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Cubos OLAPCubos OLAP
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Ventas de televisores en 2008
en la región La Paz
36. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Cubos OLAP: Función de agregaciónCubos OLAP: Función de agregación
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
37. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Cubos OLAP: Función de RotaciónCubos OLAP: Función de Rotación
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
38. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Cubos OLAP: Función de cortado/paginaciónCubos OLAP: Función de cortado/paginación
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
39. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Cubos OLAP: Función de rebanadoCubos OLAP: Función de rebanado
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
40. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Cubos OLAP: PreparaciCubos OLAP: Preparación de los datosón de los datos
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
• Descripción de un proceso ETL (Extract, Transform, Load)
• Características de los campos usados como dimensiones
• Características de los campos usados como hechos
• Concepto de las funciones de agregación
• Demostración en Excel
41. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
APLICACIÓN PRÁCTICAAPLICACIÓN PRÁCTICA
- Su aplicación requiere del uso de programas computacionales.
- Existen varios disponibles. El que se usará será Excel,
mediante su función de tablas y gráficos dinámicos.
- Como base de estudio de la aplicación de cubos OLAP el
estudiante creará un cubo con los archivos en Excel
proporcionados de estados financieros de entidades financieras
en lo que son sus cuentas contingentes.
42. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Minería de datosConceptos básicos: Minería de datos
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
La minería de datos (DM, Data Mining) consiste en la
extracción no trivial de información que reside de manera
implícita en los datos. Dicha información era previamente
desconocida y podrá resultar útil para algún proceso. En otras
palabras, la minería de datos prepara, sondea y explora los
datos para sacar la información oculta en ellos.
43. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicos: Minería de datosConceptos básicos: Minería de datos
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Bajo el nombre de minería de datos se engloba todo un
conjunto de técnicas encaminadas a la extracción de
conocimiento procesable, implícito en las bases de datos.
Las bases de la minería de datos se encuentran en la
inteligencia artificial y en el análisis estadístico. Mediante los
modelos extraídos utilizando técnicas de minería de datos se
aborda la solución a problemas de predicción, clasificación y
segmentación.
44. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Minería de datos: Aplicación en NegociosMinería de datos: Aplicación en Negocios
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
La minería de datos puede contribuir significativamente en las
aplicaciones de administración empresarial basada en la
relación con el cliente. En lugar de contactar con el cliente de
forma indiscriminada a través de un centro de llamadas o
enviando cartas, sólo se contactará con aquellos que se perciba
que tienen una mayor probabilidad de responder positivamente
a una determinada oferta o promoción.
45. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Minería de datos: Aplicación en hábitos de compraMinería de datos: Aplicación en hábitos de compra
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
El ejemplo clásico de aplicación de la minería de datos tiene
que ver con la detección de hábitos de compra en
supermercados. Un estudio muy citado detectó que los viernes
había una cantidad inusualmente elevada de clientes que
adquirían a la vez pañales y cerveza. Se detectó que se debía a
que dicho día solían acudir al supermercado padres jóvenes
cuya perspectiva para el fin de semana consistía en quedarse en
casa cuidando de su hijo y viendo la televisión con una cerveza
en la mano. El supermercado pudo incrementar sus ventas de
cerveza colocándolas próximas a los pañales para fomentar las
ventas compulsivas.
46. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Minería de datos: Aplicación en patrones de fugaMinería de datos: Aplicación en patrones de fuga
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Un ejemplo más habitual es el de la detección de patrones de
fuga. En muchas industrias —como la banca, las
telecomunicaciones, etc.— existe un comprensible interés en
detectar cuanto antes aquellos clientes que puedan estar
pensando en rescindir sus contratos para, posiblemente,
pasarse a la competencia. A estos clientes —y en función de su
valor— se les podrían hacer ofertas personalizadas, ofrecer
promociones especiales, etc., con el objetivo último de
retenerlos. La minería de datos ayuda a determinar qué clientes
son los más proclives a darse de baja estudiando sus patrones
de comportamiento y comparándolos con muestras de clientes
que, efectivamente, se dieron de baja en el pasado.
47. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Minería de datos: Aplicación en fraudesMinería de datos: Aplicación en fraudes
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
Un caso análogo es el de la detección de transacciones de
blanqueo de dinero o de fraude en el uso de tarjetas de crédito
o de servicios de telefonía móvil e, incluso, en la relación de los
contribuyentes con el fisco. Generalmente, estas operaciones
fraudulentas o ilegales suelen seguir patrones característicos
que permiten, con cierto grado de probabilidad, distinguirlas de
las legítimas y desarrollar así mecanismos para tomar medidas
rápidas frente a ellas.
48. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Minería de datos: Aplicación en RR.HH.Minería de datos: Aplicación en RR.HH.
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
La minería de datos también puede ser útil para los
departamentos de recursos humanos en la identificación de las
características de sus empleados de mayor éxito. La
información obtenida puede ayudar a la contratación de
personal, centrándose en los esfuerzos de sus empleados y los
resultados obtenidos por éstos. Además, la ayuda ofrecida por
las aplicaciones para Dirección estratégica en una empresa se
traducen en la obtención de ventajas a nivel corporativo, tales
como mejorar el margen de beneficios o compartir objetivos; y
en la mejora de las decisiones operativas, tales como desarrollo
de planes de producción o gestión de mano de obra.
49. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Minería de datos: Aplicación en uso de internetMinería de datos: Aplicación en uso de internet
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
También es un área en boga el del análisis del comportamiento
de los visitantes —sobre todo, cuando son clientes potenciales—
en una página de Internet. O la utilización de la información —
obtenida por medios más o menos legítimos— sobre ellos para
ofrecerles propaganda adaptada específicamente a su perfil. O
para, una vez que adquieren un determinado producto, saber
inmediatamente qué otro ofrecerle teniendo en cuenta la
información histórica disponible acerca de los clientes que han
comprado el primero.
50. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Minería de datos: Aplicación en genéticaMinería de datos: Aplicación en genética
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
En el estudio de la genética humana, el objetivo principal es
entender la relación cartográfica entre las partes y la variación
individual en las secuencias del ADN humano y la variabilidad
en la susceptibilidad a las enfermedades. En términos más
llanos, se trata de saber cómo los cambios en la secuencia de
ADN de un individuo afectan al riesgo de desarrollar
enfermedades comunes (como por ejemplo el cáncer). Esto es
muy importante para ayudar a mejorar el diagnóstico,
prevención y tratamiento de las enfermedades. La técnica de
minería de datos que se utiliza para realizar esta tarea se
conoce como "reducción de dimensionalidad multifactorial".
51. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Minería de datos:Minería de datos: Demostración de usoDemostración de uso
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
• Existe infinidad de soluciones informáticas que apoyan en un
proceso de minería de datos.
• El software elegido es el complemento de SQL Server -
Datamining que ofrece Microsoft con interfaz para Excel.
• Explicación del requerimiento de datos preparados con
orientación a bases multidimensionales.
• Ejemplos varios de uso para clasificación, cluster, pronóstico
y otros
52. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
APLICACIÓN PRÁCTICAAPLICACIÓN PRÁCTICA
- Su aplicación requiere del uso de programas computacionales.
- Se usará Excel, mediante el complemento que ofrece Microsoft
de datamining.
- Como base de estudio de la aplicación de minería de datos, el
estudiante deberá usar al menos 3 técnicas que le ofrece la
herramienta, basados en los datos de estados financieros de
entidades del sistema financiero.
53. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE IIIPARTE III
SimulaciónSimulación
PARTE IIIPARTE III
SimulaciónSimulación
Herramientas para el
manejo de grandes
volúmenes de
cálculos y datos
financieros
54. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicosConceptos básicos
PARTE III. SimulaciónPARTE III. Simulación
Simulación es una técnica numérica para conducir
experimentos en una computadora digital. Estos
experimentos comprenden ciertos tipos de relaciones
matemáticas y lógicas, las cuales son necesarias para
describir el comportamiento y la estructura de sistemas
complejos del mundo real a través de largos períodos.
La simulación es el proceso de diseñar un modelo de un
sistema real y llevar a término experiencias con él, con la
finalidad de comprender el comportamiento del sistema o
evaluar nuevas estrategias -dentro de los límites impuestos
por un cierto criterio o un conjunto de ellos - para el
funcionamiento del sistema.
Fuente: Wikipedia
55. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Conceptos básicosConceptos básicos: Modelo Montecarlo: Modelo Montecarlo
PARTE III. SimulaciónPARTE III. Simulación
• El método de Monte Carlo fue bautizado así por su analogía con
los juegos de ruleta de los casinos, siendo el más célebre el de
Monte Carlo, inaugurado en 1861. Resuelve una gran variedad
de problemas haciendo experimentos con muestreos estadísticos
en una computadora.
• Se analizan distribuciones de variables aleatorias usando
simulación de números aleatorios.
• Comenzó a usarse como herramienta de investigación en los
años 40 en el Proyecto Manhattan relacionado con la primera
bomba atómica.
• El método de Monte Carlo convierte nuestro ordenador en un
potente laboratorio de simulación.
56. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Modelo Montecarlo vs. Modelos analíticosModelo Montecarlo vs. Modelos analíticos
PARTE III. SimulaciónPARTE III. Simulación
La construcción de un modelo analítico tiene con frecuencia serios
inconvenientes:
1)La dificultad de encontrar el modelo de ecuaciones que representen al sistema
real y
2)La dificultad para resolver el modelo.
Por otro lado, con frecuencia se requiere que los individuos que participan en el
equipo deben tener una gran capacitación y destreza. De modo que estos
equipos de trabajo suelen ser costosos. En contraparte, para obtener modelos de
simulación, los equipos de trabajo pueden estar conformados por personas con
menor calificación, de modo que la coordinación de estos equipos es en general
más simple y casi siempre más económico. Con esto no se pretende decir que
los modelos analíticos sean inútiles, ya que existen cierto tipo de problemas,
para los cuales se conoce la forma de obtención del modelo así como la manera
de construir un algoritmo eficiente para resolverlo.
57. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Modelo Montecarlo: ImportanciaModelo Montecarlo: Importancia
PARTE III. SimulaciónPARTE III. Simulación
• Existen problemas numéricos de muy difícil solución por
métodos exclusivamente analíticos.
• El desarrollo de los ordenadores posibilita la simulación de
experimentos a través de números aleatorios o de números
determinísticos pseudoaleatorios.
• Las aplicaciones posibles trascienden las propias Matemáticas:
Magnitud de las emisiones de rayos cósmicos; tamaño crítico de
los reactores nucleares; difusión y movimiento browniano;
paso de líquidos a través de sólidos; propiedades de retículos
poliméricos; características de los recipientes necesarios para el
transporte de neutrones; aplicaciones de la teoría de colas a
problemas comerciales como almacenamiento, sustitución y
mantenimiento de equipos, gestión de seguros, etc.
58. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Modelo Montecarlo: Casi todo es probableModelo Montecarlo: Casi todo es probable
PARTE III. SimulaciónPARTE III. Simulación
• Si hoy es lunes, mañana es martes; si pago, puedo comprar; si voy a la
parada, pasará el micro, etc... Probabilidad 1. ¿La vida es determinista?
• ¿Y si cambia el tipo de calendario?... ¿Y si se produce un
desabastecimiento?... ¿Y si cambia el tipo de calendario?... ¿Y si se
produce un desabastecimiento?...¿Y si hay huelga de conductores? Casi
nunca sucede…¿La vida es casi segura? Probabilidad cercana a 1.
• ¿Tu hijo nacerá en martes?...¿Cuánto tardarás en la cola del hipermercado?...
¿A qué hora pasará el próximo micro hacia tu trabajo?...Estamos rodeados
de fenómenos azarosos… La vida en general es aleatoria. Probabilidad
variable.
• ¿cuál es la probabilidad de que tus acciones suban mañana en Bolsa más del
5%?
59. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Modelo Montecarlo: AplicaciónModelo Montecarlo: Aplicación
PARTE III. SimulaciónPARTE III. Simulación
• Existe infinidad de soluciones informáticas que apoyan
resolviendo modelos Montecarlo.
• El software elegido Crystal Ball que interactúa con Excel.
• Explicación de la construcción de un modelo de simulación.
• Ejemplos varios de uso del modelo Montecarlo.
60. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales
APLICACIÓN PRÁCTICAAPLICACIÓN PRÁCTICA
- Su aplicación requiere del uso de programas computacionales.
- Se usará Crystal Ball..
- Como base de estudio de la aplicación del modelo Montecarlo
el alumno construirá su propio modelo de simulación,
establecerá las variables aleatorias, definiendo la variable
dependiente de control y ejecutará Montecarlo, analizando el
resultado obtenido.
61. Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros
Herramientas para el manejo de grandes volúmenes
de
cálculos y datos financieros
Herramientas para el manejo de grandes volúmenes
de
cálculos y datos financieros
Material preparado por:Material preparado por:
Samir Homsi AragónSamir Homsi Aragón
Material preparado por:Material preparado por:
Samir Homsi AragónSamir Homsi Aragón