El documento habla sobre la limpieza de datos. Algunos de los temas discutidos incluyen identificar posibles errores en los datos como formatos múltiples o valores perdidos, asegurarse de que los campos de datos se refieran al mismo período de tiempo, y manejar datos censurados. También menciona que los problemas de calidad de datos pueden ser costosos y que la limpieza de datos es importante para que las técnicas de extracción de conocimiento funcionen de manera efectiva.
2. Limpieza datos
¿Podemos interpretar los datos?¿Qué significan los campos?
¿Cuál es la clave? Las medidas?
Como manejar los datos censurados?
¿Los datos se refieren a los mismos períodos de tiempo?
No olvide hay fallos como: Errores tipográficos,
múltiples formatos, los valores perdidos, no se
entiende la especificación, entre otros.
JOSÉ CUARTAS INFORMÁTICA 2
3. Limpieza datos
En general, se tiene un problema si los
datos no significa lo que usted cree.
Problemas de calidad de datos son
costosas en tiempo y dinero.
JOSÉ CUARTAS INFORMÁTICA 3
4. Los malos datos y datos malos.
El mal diseño de información .Si compras una medicina que no
requiere de receta médica, y no indica cuanto y cuando hay que consumirla,
(Busco una solución, voy donde el medico, chaman o alguien que resuelva).
"La cultura de la duda“
“La peor decisión es la indecisión” Benjamin Frankiln
La mala información. Se tienes la certeza de estar consumiendo la
medicina de manera correcta, aunque no sea cierto.
Nunca olvide
“las decisiones de hoy son las consecuencias de mañana”
JOSÉ CUARTAS INFORMÁTICA 4
5. Datos
http://es.wikipedia.org/wiki/Dato
Cuando los DATOS son VALIDOS hay MAYOR confianza
para la TOMA DE DECISIONES.
JOSÉ CUARTAS INFORMÁTICA 5
6. Preprocesar y Preparar Datos
• Son todas aquellas técnicas de análisis de datos que
permite mejorar la calidad de un conjunto de datos.
– Esto permite que las técnicas de extracción de conocimiento
puedan obtener mayor y mejor información.
• mejor porcentaje de clasificación, reglas con más completitud, entre otras.
JOSÉ CUARTAS INFORMÁTICA 6
7. Ventajas en la Limpieza de datos
• Unas ventajas:
– Permite aplicar modelos de
Aprendizaje/Minería de Datos de forma
más rápida y sencilla.
– Patrones de más calidad, precisión e
interoperabilidad.
JOSÉ CUARTAS INFORMÁTICA 7
8. Inconvenientoes en la Limpieza
datos
• Unos inconvenientes:
– No es un área totalmente estructurada con
una metodología concreta para todos los
problemas.
– Cada problema puede requerir una manera
diferente de solución.
JOSÉ CUARTAS INFORMÁTICA 8
9. Limpieza datos
• Recolección de datos e integración: Se Obtienen los
datos de diferentes fuentes de información, en este paso
se resuelven los problemas de representación y
codificación, integrando los datos desde diferentes
fuentes con el fin de crear información homogénea, ...
• Transformación de datos: Los datos son transformados
o consolidados para luego poder extraer información
realizar operaciones de resúmenes de datos y
operaciones de agregación, entre otras.
JOSÉ CUARTAS INFORMÁTICA 9
10. No olvide
Es un procedimiento donde se recurre a métodos
de muchas disciplinas como estadísticas, análisis
exploratorio de datos minería (EDM), bases de
datos, gestión, y los metadatos.
Busque siempre la calidad en los datos, esto
mejora notablemente la obtención de
conocimiento.
JOSÉ CUARTAS INFORMÁTICA 10