El documento describe el ciclo de vida del dato en el quehacer estadístico. Explica que los datos se adquieren definiendo una vista lógica y una física de los datos e implementando canales de captura. Luego, los datos se procesan depurándolos, consolidándolos e integrándolos para generar valor agregado. Finalmente, los datos se usan diseñando consultas, procesando las consultas, manipulando y presentando los resultados. También presenta conceptos básicos como calidad de datos e introduce el enfoque de proces
4. DATOS
Según Larry English los datos son:
• Representaciones de las cosas o
entidades en el mundo real.
• R
Representaciones d l
t i de las
características o hechos (atributos) de
las entidades.
• El material bruto y básico del cual se
deriva la información para tomas de
decisiones y acciones inteligentes.
g
• Junto con los datos que describan y
contextualicen (metadata) los datos se
produce información
información.
5. INFORMACIÓN
• La información son datos en
contexto, d t usables o
t t datos bl
útiles, datos con significado
que pueden ser interpretados y
comprendidos.
comprendidos
INFORMACIÓN = F(datos + definición + presentación)
F(datos presentación
6. CONOCIMIENTO Y SABIDURIA
La información en contexto, comprendida y aplicada
por la gente se convierte en conocimiento
Conoc. F(Gente
Conoc. = F(Gente + Información + Significado)
Significado)
El conocimiento es un valor agregado a la
información a través de la experiencia y aplicación
de la información en un área específica.
Cuando se combina conocimiento correcto,
C d bi i i t t
experiencia e intuición comprendida es posible tomar
decisiones y actuar adecuadamente ante situaciones
específicas.
específicas Esta combinación es lo que se llama
sabiduría, el conocimiento empoderado para actuar:
Sabiduría = F(Gente + conocimiento + acción)
F(Gente acción)
http://en.wikipedia.org/wiki/Albert_Einstein
9. CICLO DE VIDA DE LOS DATOS
• Uso de los datos
– Definir la subvista: diseñar la consulta
– Recuperar los datos: procesar la consulta
– Manipular los datos: ordenar, agregar, reformatear y
datos Uso de
li
analizar los datos
– Presentar resultados diseñar reporte, la forma de
resultados:
presentación de los datos
• Procesamiento de los datos
– Depurar l d t
D los datos
– Consolidar e integrar los datos Procesamiento
– Generar valor agregado a partir de los datos de los datos
• Adquisición de los datos
– Definir la vista: modelamiento lógico de los datos
– Implementar la vista: diseño e implementación física de los datos
físicos Adquisición
– Definir
D fi i canales d captura
l de t de datos
de datos
– Asegurar la calidad de los datos en los canales de captura
– Obtener los datos: poblar la base de datos
– Actualizar registros: almacenamiento y mantenimiento de los
datos, copias de seguridad de los datos, archivar los datos
datos datos
11. CICLO DE VIDA DE LOS DATOS: PROCESAMIENTO DE DATOS
CICLO DE VIDA DE LOS DATOS: PROCESAMIENTO DE DATOS
Depurar datos
Consolidar e Generar valor
integrar datos agregado
13. CONCEPTOS BÁSICOS: CALIDAD DE DATOS
• Calidad de alguna entidad, objeto o cualquier cosa hace
Qué es calidad? referencia al nivel de satisfacción o cumplimiento
consistente con los requerimientos, necesidades o
requerimientos,
expectativas de los usuarios
p usuarios.
Qué es calidad de datos?
• La calidad de los datos hace referencia al cumplimiento
consistente (completo) de los requerimientos o
necesidades de los consumidores de los datos. En ese
sentido, la calidad de los datos es relativa al uso potencial
de los datos
datos.
• Según Jurán, los datos son de alta calidad si ellos son
conformes a su uso previsto en operaciones, tomas de
operaciones,
decisiones y planeación.
planeación.
• En otras palabras, calidad de datos es el estado de
completitud, validez, consistencia,
completitud, validez, consistencia, oportunidad y exactitud
que hace que los datos sean apropiados para un uso
específico o permitan satisfacer un propósito dado.
– CCompletitud
l tit d
– Validez
– Consistencia
– Oportunidad (temporalidad)
p ( p )
– Exactitud
15. Departamento Administrativo Nacional de Estadística
Departamento Administrativo Nacional de Estadística
‐ DANE
• MISION “La misión del DANE es producir y
difundir información estadística estratégica
f f ó í é
para la toma de decisiones en el desarrollo
económico y social del país, a partir de su
ó ld l í d
liderazgo técnico ejercer la regulación del
sistema estadístico nacional”
dí l”
16. DANE ‐
DANE SU QUEHACER
DANE ‐ SU QUEHACER
Producción de Estadísticas Estratégicas p
g para el p ,
país,
garantizando su continuidad y comparabilidad (espacio-
temporal)
Actualmente el DANE realiza 65 Investigaciones al
año, entre investigaciones continuas y especiales
Coordinación del Sistema Estadístico Nacional (SEN)
Difusión de Estadísticas
17. DANE ‐
DANE ‐ SU QUEHACER
Difusión Armonización
Análisis Normalización
Ejecución y
Ejecución y
Estandarización
Procesamiento
Planificación DANE Regulación
Producción Coordinación
19. ANÁLISIS DE REQUERIMIENTOS Y DISEÑO
Solicitudes VALIDACIÓN DE DISEÑO DE
CLIENTE Requerimientos REQUERIMIENTOS INVESTIGACIÓN
Requerimiento de marco estadístico
MARCO UNICO
Registros Formato
Administrativos Electrónico
MARCO MARCO
LISTAS AREAS
INTERNET
Diseño de cuestionario METODOLOGIAS
Reglas de validación y
consistencia
Definición de la muestra
Plan
Pl operativo
ti SISTEMA DOCUMENTALDIGITAL
…
20. FUENTES BÁSICAS DE CAPTACIÓN
CENSOS
Encuesta exhaustiva que cubre la
totalidad de la población objetivo.
Requiere altos niveles de
organización y planeación, por lo
que típicamente se realiza cada 5 o
10 años
años.
Interés frente a la fuente
•Ajuste y actualización de marcos y
directorios
•Nuevas estructuras
•Proyecciones de población
Proyecciones
21. FUENTES BÁSICAS DE CAPTACIÓN
MUESTRAS
N
Basado en un marco muestral donde
los elementos son seleccionados
l l t l i d
aleatoriamente con una probabilidad
de selección conocida. n
Interés frente a la fuente
•Seguimiento a marcos y directorios
•Detección de cambios de coyuntura
22. FUENTES BÁSICAS DE CAPTACIÓN
REGISTROS
ADMINISTRATIVOS
Base de datos actualizada Las deficiencias en casi
continuamente por terceros (en la totalidad de los Registros
la mayoría de los casos para Administrativos hacen que
propósitos administrativos) y de los INE tengan que
la cual se pueden desarrollar su ingenio para la
extraer/agregar/calcular
g g utilización estadística de
estadísticas. estas herramientas, lo que no
implica asumir el papel de
Interés frente a la fuente administrador de estos
•Adopción d estándares y normas
Ad ió de tá d instrumentos.
•Cobertura y comparabilidad
Que asegure la calidad de la
producción estadística
23. CADENA DE VALOR
CADENA DE VALOR
DETECCION Y
PRODUCCIÓN DIFUSION CLIENTE
CLIENTE ANALISIS DE DISEÑO ANALISIS
ESTADISTICA ESTADISTICA
REQUERIMIENTOS
SOPORTE CIENTIFICO SOPORTE
Y TECNICO INFORMATICO
24. PRODUCCIÓN ESTADÍSTICA ‐
PRODUCCIÓN ESTADÍSTICA ‐ RECOLECCIÓN DE DATOS
Registros
Administrativos
BAES DE DATOS
Cruda
Sectorial Municipal
CAPTURA EN
TERRENO EN
DMC
INTERNET
Metadatos Microdato
CERO PAPEL
Sistemas de
producción
FORMULARIOS
ELECTRÓNICOS
Sistema de Monitoreo y Control Estadístico
25. RECOLECCION
Acceso
autenticación
Banco Generación
G ió Parámetros
preguntas instrumentos Encuesta
Marcos Prediligenciamiento Prediligenciamiento
Área - Lista
Asignación Cargas
Cargas Asignadas
Recolección Datos
Recolectados
Transmisión Datos
Y Consolidación Crudos
Sistema de Monitoreo y Control Estadístico
Formulación Datos
indicadores De indicadores
28. ARQUITECTURA GEA
ARQUITECTURA GEA
Autenticación
Web Service
DMC WSDL
SQL CE
Servidor ADO Base de
XML Web datos
SOAP SQL
HTTP
WINDOWS
XML ORACLE
Acceso a datos
Web Service
WSDL
PLATAFORMA WINDOWS IIS
FRAMEWORK .NET
PC
30. Indicadores preoperativos
Para Oiba Santander
Proceso precensales
Rojo Amarillo Verde
Cartografía
Sensibilización
Etapa 1
Gestión de personal
Distribución de material
Tecnología
Estado consolidado de Oiba
31. Indicadores preoperativos
Para Oiba Santander y Tecnología
Rojo Amarillo Verde
DMC encuestador
Etapa 2
DMC supervisor
p
Centro de acopio
Para Oiba Santander, Tecnología – Indicador 3 Centro de
acopio
Etapa 3 Fecha Responsable Acción tomada
5-mayo-05 Responsble 1 Acción tomada 1
17-mayo-05 Responsble 2 Acción tomada 2
...
40. GENERALIDADES
• Permitía conocer información censal referente
a:.
• Indicadores de Vivienda
• Indicadores de Hogares
• Indicadores de Personas
• Indicadores de Unidades Agropecuarias
Indicadores de Unidades Agropecuarias
• Indicadores de Unidades Económicas
• Se verifica y garantiza la calidad información
censal recolectada.
41. CONSULTA O MODIFICACIONES
1. Introduzca el código
del Centro de
Acopio (9 dígitos).
1 2
2. Click en el botón
Consultar
3. Se despliega una
tabla con toda la
información censal
alimentada.
alimentada
4. Si desea modificar un
dato, de click sobre la
fecha que desea la
cual se encontrara
3 delineada en azul.
29/11/2005
42.
43.
44.
45. PRODUCCIÓN ESTADÍSTICA ‐
PRODUCCIÓN ESTADÍSTICA ‐ PROCESAMIENTO DE DATOS
• Procesamiento d l d t
P i t de los datos
– Depurar los datos
– Consolidar e integrar los datos
– Generar valor agregado a partir de los datos
46. PRODUCCIÓN ESTADÍSTICA ‐
PRODUCCIÓN ESTADÍSTICA ‐ PROCESAMIENTO DE DATOS
Control
Recepción
Control
Datos
Crudos Recepción
R ió
B.D. Consolidación
Consolidada
B.D. Consistencia
Imputada Imputación Metadatas
Agregados
Con factores de Funciones
expansión Especiales
Desagregadas
Con factores de Evaluación
expansión Calidad
Producción Documento
de resultados Evaluación
Sistema de Monitoreo y Control Estadístico
Formulación
F l ió Datos
D t
indicadores De indicadores
47. CADENA DE VALOR)
CADENA DE VALOR)
DETECCION Y
PRODUCCIÓN DIFUSION CLIENTE
CLIENTE ANALISIS DE DISEÑO ANALISIS
ESTADISTICA ESTADISTICA
REQUERIMIENTOS
SOPORTE CIENTIFICO SOPORTE
Y TECNICO INFORMATICO
48. Análisis Dif ió
A áli i y Difusión
BANCO DE DATOS
VIRTUALES
SISTEMAS DINAMICOS
DE DIFUSIÓN
BODEGA SISTEMAS DE
DE DATOS INTERNET CONSULTA DINAMICA
CERO PAPEL MAPAS TEMATICOS
FOROS Y Extranet
COMUNIDADES
VIRTUALES ENTIDADES OFICIALES
Sistema de Monitoreo y Control Estadístico
49. Infraestructura Colombiana de DIFUSIÓN
D t
Datos
1
2
3
tad
Repositorio de
Información básica .
lombiest
Evaluación de .
Desagregadas
Calidad
Con factores de .
expansión (ETL) Metadato
n
Col
Modelos
Dimensiónales
De análisis
Estadístico
Sistema de Monitoreo y Control Estadístico
51. Decreto 3851 de 2006:
Sistema de aseguramiento de la calidad, almacenamiento y
Sistema de aseguramiento de la calidad almacenamiento y
consulta de la información básica colombiana y se dictan otras
disposiciones
1. 2. 3.
Proceso de Proceso de Calidad Difusión de la
Certificación e Integración Información
de Calidad de IB de la Información Básica Básica
CANDANE - ACIOB BODEGA DE DATOS COLOMBIESTAD
53. Infraestructura Colombiana de
Datos
“Sistema administrativo de información oficial
Sistema
básica, de uso público, consistente en una
arquitectura de información estandarizada, apta
q , p
para la transmisión, aseguramiento de calidad,
procesamiento, difusión, e intercambio
electrónico de datos entre generadores y
usuarios”
Decreto 3851 de 2006
54. Certificación de Calidad
“Para ser incorporadas a la ICD, las bases de
datos deberán obtener un Certificado de
Calidad de la Información Básica -CI-, que
expedirá el DANE con base en inspección
practicada por una comisión d expertos
ti d i ió de t
independientes integrada por al menos tres
profesionales competentes en la materia,
materia
escogidos por el DANE entre profesores
universitarios, expertos internacionales y
, p
usuarios de la información”...
Decreto 3851 d 2006
D t de
55. Criterios de Evaluación AC
DIMENSIONES
DE CALIDAD
GESTIÓN
PRODUCTO
Relevancia y Diseño Procesos Recursos
Completitud
Definición de Objetivo
Precisión y Requisitos Recolección Financieros
Definiciones metodológicas
Oportunidad y de recolección y Infraestructura y
Puntualidad Procesamiento
procesamiento Tecnológicos
Accesibilidad y
Validación del
Claridad
Cl id d Difusión Humanos
Diseño
Comparabilidad y
Coherencia Aseguramiento de
calidad
REFERENCIAS : FMI, EUROSTAT, CEPAL, ISO900, MODELO EFQM
56. Principales componentes
de la ICD
de la ICD
Datos sobre Datos
Personas Espaciales ICDE
Datos Datos Territoriales
Estadísticos y Regionales
g
Decreto 3851 de 2006
D t d
57. 1.Infraestructura de datos sobre
personas:
“Registros de hechos vitales y migraciones
Registros
que sirvan para actualizar la información
censal de población, cobertura de p
p protección
social, registros educativos, registro mercantil,
registro de contribuyentes, beneficiarios de
subsidios, d
b idi damnificados y otros d l misma
ifi d t de la i
índole”.
Decreto 3851 de 2006
58. 2.Infraestructura de datos estadísticos:
“Estadísticas generadas por registros
administrativos,
administrativos censos o encuestas sobre
aspectos socio económicos y demográficos,
estadísticas derivadas, modelos de estadística
prospectiva y demás de la misma índole”.
Decreto 3851 de 2006
59. PENDES
O
OFERTA
1. Inventario de
1 I t i d
Operaciones Actual
Estadísticas DEMANDA
Prospectiva
Oferta
2.
2 Diagnóstico Demanda
Cruce preliminar O - D
3.
3 Documento PENDES
60. Clasificación de Información de
Operaciones Estadísticas
SECTOR SUBSECTOR TOTAL
TOTAL 1127
TOTAL SECTOR 558
AGRICULTURA, GANADERÍA Y PESCA 97
BANCA Y SERVICIOS FINANCIEROS 99
COMERCIO, INDUSTRIA Y SERVICIOS 111
ECONÓMICO COMUNICACIONES 26
CONSTRUCCIÓN Y VIVIENDA 24
CUENTAS ECONÓMICAS 90
MINERO - ENERGÉTICO 39
TRANSPORTE 72
TOTAL SECTOR 54
RECURSOS NATURALES Y MEDIO
ECOSISTEMAS 47
AMBIENTE
SUMINISTRO DE AGUA Y SANEAMIENTO BÁSICO 7
TOTAL SECTOR 515
ADMINISTRACIÓN PÚBLICA, ACTIVIDAD
95
POLÍTICA Y ASOCIACIONES
CULTURA, DEPORTE Y OCIO 63
DEMOGRAFÍA Y POBLACIÓN 10
SOCIAL EDUCACIÓN, CIENCIA Y TECNOLOGÍA 50
JUSTICIA 96
MERCADO LABORAL 13
NIVEL, CALIDAD Y CONDICIONES DE VIDA 17
SEGURIDAD 101
SALUD Y SEGURIDAD SOCIAL 70
61. Clasificación de las Operaciones por tipo
CENSO MUESTREO MUESTREO NO REGISTRO ESTADÍSTICA REGISTRO ESTADÍSTICA
PROBABILÍSTICO PROBABILÍSTICO ADMINISTRATIVO DERIVADA ADMINISTRATIVO Y DERIVADA Y
OTRA OTRA
6%
1.6% 4.7%
% 1.9%
9% 76.1%
6 % 14.9%
9% 0 %
0.7% 0 %
0.2%
857 Censo
900
Muestreo
800
Probabilístico
700 Muestreo no
600 Probabilístico
500 Registro
Administrativo
400
Estadística Derivada
300 168
200 18 53 21 Registro
8 2 Administrativo y Otra
100
Estadística Derivada
0 y Otra
62. 3.Infraestructura Colombiana de Datos
Espaciales ICDE:
p
“Información geográfica relativa a catastro,
inventarios de infraestructura física recursos
física,
minerales, hídricos, vegetales y biodiversidad,
geología, geomorfología, suelos, amenazas
naturales, climatología, cobertura y uso del
suelo, oceanografía, batimetría, registro de
propiedad inmobiliaria, listado de direcciones de
edificaciones urbanas y rurales, conexiones de
servicios
ser icios públicos domiciliares y demás de la
domiciliares,
misma índole”.
Decreto 3851 de 2006
63. 4.Infraestructura de datos generados
en entidades territoriales y
regionales:
“Bases de datos no comprendidas en los
componentes antes enumerados,
p
administradas por Gobernaciones, Municipios,
entes regionales, provinciales, locales y entes
no gubernamentales que voluntariamente se
b t l l t i t
incorporen a la ICD”.
Decreto 3851 de 2006
64. Estructura general d l ICD
E l de la
Arquitectura de Datos
Integración y Aplicaciones
Certificación Difusión
Calidad de datos Área de Integración de la Área de análisis de analíticas
información básica información básica
ción de datos
Consultas
Multidimen
PORTAL WEB
RIB Modelos de Consultas ad hoc
CANDANE Análisis
Calid e integrac
Repositorio de información D D
básica D H D H D
D H D Indicadores
D
EPIB RAVEC
(Entidad u
Analítica por
Productora OTRO)
dad
procesos Centros de
s De
Informació atención
n Basica) MIB
Minería de datos
Metadatos de información
básica
ETL Mapas temática
•
Sistema de metadatos
Sistemas
Sistema de administración y control
Transversales
Sistema de aseguramiento de la calidad Repositorio de información básica
p Estándares
DSL PC Móvil Cable Redes Software
Plataforma tecnológica (hardware, software, comunicaciones)
65. Herramientas para aplicación del proceso (Kettle)
ETL – Extract:
Lectura de datos desde diferentes fuentes (archivos planos tablas de bases de datos
planos, datos,
consultas SQL, archivos Excel, Etc.)
ETL Transform:
L – Transform:
- Unificación de codificaciones, Descomposición campos compuestos en únicos,
Detección los valores erróneos.
- Unificación de estándares: unidades de medida, tiempo, moneda.
, p ,
- Eliminación de valores duplicados.
- Creación de Claves numéricas consecutivas (llaves subrogadas).
ETL – Load
Cargas los datos transformados y mapeados a la nueva fuente de datos.
70. Mostrar gráfica
• Hacer clic en botón para Visualizar gráfica
Medidas
Dimensión
71. Generar reporte en PDF
G t
• Hacer clic en el
Hacer clic en el
botón para generar
reporte PDF
• Configuración del
reporte PDF
• Almacenar o
Almacenar o
visualizar reporte
en disco local
72. Operaciones estadísticas disponibles (14)
O i t dí ti di ibl (14)
• Ministerio de Transporte
1. Costos operacionales (por Carretera).
2.
2 Movilización
Mo ili ación de carga (enc esta origen destino a vehículos de carga).
(encuesta origen-destino ehíc los carga)
3. Movimiento Portuario Fluvial
4. Registro Nacional de vehículos de carga.
• DANE
1. Encuesta de Transporte Urbano.
2. Índice de Precios al Consumidor IPC.
• Aeronáutica Civil
1. Origen y destino pasajeros y carga.
2. Operaciones de trafico regular.
3. Operación de aerotaxis.
4.
4 Operación de vuelos charter.
charter
5. Tráfico de Helicópteros.
• INVIAS
1.
1 Conteos Manuales de Transito.
Transito
2. Ingreso por concepto de peajes.
3. Control de Peso Bruto Vehicular.