Este documento discute las fuentes de incertidumbre en el mapeo del carbono orgánico del suelo, incluidas las incertidumbres en el muestreo de suelos, las covariables ambientales y los modelos digitales de suelo. Explica cómo caracterizar estas incertidumbres mediante distribuciones de probabilidad y cuantificar las incertidumbres de predicción propagando la incertidumbre a través de los modelos.
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Incertidumbre en el mapeo del carbono organico del suelos
1. Gerencia del Sistema Nacional de Monitoreo Forestal
Incertidumbre en el mapeo del carbono orgánico del
suelos
Aguascalientes 30 de junio de 2017
Unidad Técnica Especializada en Monitoreo, Reporte y Verificación
2. CONTENT
1. Antecedentes
2. Fuentes de incertidumbres
3. Incertidumbre y calidad de los datos
espaciales
4. Cuantificación de las incertidumbres de
predicción
4. El mapeo de suelos implica hacer predicciones en lugares donde el suelo no se midió.
Esto implicará inevitablemente los errores de predicción debido a que la variación
espacial de los suelos es compleja y no es posible modelarla perfectamente.
Las predicciones difieren de las predicciones reales y por lo tanto existe una
incertidumbres sobre el valor real
Objetivos
• Presentar las diferentes fuentes de error asociadas al mapeo de carbono orgánico en
suelos
• Caracterizar las incertidumbres por las funciones de distribución
• Exponer los principios de la cuantificación de las incertidumbres de las predicciones de
los modelos
1 Antecedentes
6. o Muestreo de suelos
o Análisis de laboratorio
o Ubicación de los puntos de muestreo
o Covariables ambientales
o Mapeo de suelos con técnicas digitales
2 Fuentes de incertidumbre
7. o Errores de edición en campo
• Profundidad inadecuada
• Capa orgánica no separada adecuadamente
• Las bolsas mal etiquetada
• Errores en la clasificación del tipo de suelo
• Errores en la determinación en campo de propiedades del suelo
o Errores de medición en el laboratorio
• Falta de un adecuado mezcla de las muestras de suelo
• Precisión de los instrumentos
• Condiciones climáticas en los laboratorios
• Diferencias en los procedimientos y capacidades de los laboratorios
2 Fuentes de incertidumbre
2.1 Incertidumbre de los atributos de la medición de suelos
8. o Cuando se colectan datos de suelo en el campo generalmente se registran las
coordenadas geográficas del lugar de medición (ahora recientemente haciendo uso del
GPS)
o No obstante, en el pasado muchas muestras de suelos padecen de errores de
localización.
• Supongamos el caso donde deseamos utilizar los datos de suelo para entrenar un
modelo digital de suelo que prediga las propiedades del suelo en función de
covariables.
• Ahora supongamos contamos con covariables que están disponibles a una
resolución espacial alta y cuentan con una fina escala de variación especial.
• Entonces es claro que el error de localización del punto de muestreo ligara a estas
mediciones con covariables equivocadas.
• Bajo esta situación el investigador deberá decidir si utilizar esos datos; ello
dependerá del grado de variación espacial de las covariables
2 Fuentes de incertidumbre
2.2 Incertidumbre de en la ubicación de los puntos de muestreo
9. o El modelo digital de elevación es la principal fuente de covariables geomorfológicas
o Las propiedades del suelo también están fuertemente influenciadas por los tipos de
coberturas
Las covariables frecuentemente están disponibles en escalas espaciales finas esto implica
que variaciones espaciales a una escala espacial fina implicarán la introducción de
incertidumbres. (una posible salida sería el suavisamiento de la escala)
La cantidad de varianza explicada por un MDS que usa el valor verdadero de la cobertura
de la tierra en los puntos de muestreo serán mucho más alta que los que utilizan mapas de
cobertura.
2 Fuentes de incertidumbre
2. 3 Incertidumbre en covariables
10. o Aún cuando los puntos de muestreo y las covariables estén libres de error, las
predicciones obtenidas con el MDS aún tendrán desviaciones de las verdaderas
propiedades del suelo.
o Esto se debe a que el MDS por si mismo introduce incertidumbres ya que el modelo es
una simplificación de la representación real del mundo.
o Aún cuando conozcamos la función física, química y biológica que determina el suelo,
esta función es muy compleja ; por lo tanto se recure a simplificaciones como la
regresión lineal simple y los algoritmos de maching-learning.
2 Fuentes de incertidumbre
2. 4 Incertidumbre en modelos que predicen propiedades de los
suelos a través de covariables y puntos de muestreo de suelos
11. La incertidumbre de los modelos se divide en:
o La incertidumbre de los parámetros (incertidumbres reducida con pocos
parámetros/muchos datos de calibración)
o La incertidumbre de la estructura del modelo (incertidumbres reducida con un
modelo más complejo- se requieren suficientes datos)
La elección del modelo depende de la información disponible y el grado de complejidad
deseado
2 Fuentes de incertidumbre
2. 4 Incertidumbre en modelos que predicen propiedades de los
suelos a través de covariables y puntos de muestreo de suelos
13. En la ciencia de los sistemas de información geográfica se han identificado 5 elementos
principales en la calidad de los datos espaciales:
1. Linaje (Se refiere a identificar la documentación de las fuentes originales de los datos y
el procesamiento, esta asociado al principio de reproducibilidad)
2. Precisión de la localización
3. Precisión de los atributos
4. Consistencia lógica (Se refiere a la contradicción en las relaciones de las bases de
datos- misma proyección geográfica, diferentes unidades)
5. Completitud (se refiere a la presencia de valores faltantes – los mapas de covariables
deben de cubrir toda el área de estudio)
Existen diferentes fuentes de incertidumbres en el desarrollo de mapas de suelos; sin
embargo, esto no significa que sea altamente imprecisos; si no que es una buena práctica
su cuantificación.
3 Incertidumbre y calidad de los datos espaciales
15. • Las incertidumbres de las mediciones de suelos, las covariables y los MDS se deben de
propagar en el mapa resultante de suelos.
• La propagación de incertidumbre se puede implementar fácilmente una vez que las
fuentes de incertidumbres han sido proporcionadas y se caracterizan adecuadamente.
• La forma más adecuada para hacer esto es haciendo uso del análisis estadístico y de
las distribuciones de probabilidad.
4 Cuantificación de la incertidumbre de predicción
16. o Si nosotros estamos inciertos acerca del valor de una propiedad del suelo en una
ubicación y profundidad específica, eso significa que nosotros no podemos definir un
valor verdadero para esa propiedad del suelo.
o En lugar de ello, es posible proporcionar un listado de todos los valores posibles para
este y asignarle una probabilidad.
o Con esto en otras palabras, se representa el valor verdadero pero incierto de alguna
propiedad del suelo a partir de una distribución de probabilidad
EJEMPLO
4 Cuantificación de la incertidumbre de predicción
4. 1 Incertidumbres caracterizadas por las distribuciones de
probabilidad
17. • Distribución normal: es la distribución más común
• Distribución log-normal: muchas distribuciones del suelo tienes distribuciones
asimétricas
o Si las variables utilizadas se distribuyen de manera normal, es más fácil analizarlas; por
lo tanto se recurre típicamente a normalizarlas a través de transformaciones log-
normal
o Por lo tanto se transforman las variables y después de predecir los valores se regresa a
su escala original.
o Hay varias propiedades de suelos que varían además en espacio y tiempo; por lo tanto
la caracterización de la incertidumbre requiere incluir el análisis en espacio y tiempo
de las correlaciones.
4 Cuantificación de la incertidumbre de predicción
4. 1 Incertidumbres caracterizadas por las distribuciones de
probabilidad
18. Si asumimos una distribución normal conjunta, entonces el vector de propiedades del
suelo Z esta completamente caracterizado por su vector de medias m y la matriz de
covarianzas C
4 Cuantificación de la incertidumbre de predicción
4. 1 Incertidumbres caracterizadas por las distribuciones de
probabilidad
19. La incertidumbre del MDS se puede separar en los parámetros del modelo y la
incertidumbre de la estructura del modelo. Un ejemplo típico de esto es un modelo de
regresión lineal múltiple:
o Incertidumbre de los parámetros:
• Ocurre debido a que los parámetros Bo, B1 y B2 se estiman empleando de datos de
calibración
• Bajo los supuestos del modelo lineal de regresión los errores de los parámetros se
distribuyen de manera normal con media cero
• Los errores estándar se turnan pequeños conforme el tamaño de los datos de
calibración incrementa.
*Salidas de los software estadísticos
4 Cuantificación de la incertidumbre de predicción
4. 2 Incertidumbres de los modelos
20. o Incertidumbre de la estructura del modelo:
• Esta se representa con el error residual (ɛ)
• Se distribuye de manera normal con media cero
• Este error depende de las variaciones de las espaciales de las propiedades del suelo (Z)
y de la fortaleza de las relaciones entre las covariables
• Si las covariables explican una parte importante de la variación de las propiedades del
suelo entonces la desviación estándar del residual será mucho más pequeña que
aquella inherente a la propiedad del suelo
• En este caso el coeficiente de determinación R2 será cercano a 1 cuando exista una
fuerte relación lineal entre las propiedades del suelo y las covaribles
En este caso, el error estándar del residual será mucho menor que el de las propiedades
del suelo debido a que una gran parte de la variación se explica por el modelo.
4 Cuantificación de la incertidumbre de predicción
4. 2 Incertidumbres de los modelos
21. o Ejemplo de estimación de IC en un modelo lineal:
Supongamos que contamos con un conjunto de datos que se pueden relacionar con el
siguiente modelo:
4 Cuantificación de la incertidumbre de predicción
4. 2 Incertidumbres de los modelos
𝐵 = 𝑒 𝑎+𝑏 ln(𝐷𝐴𝑃)
Es posible linealizarlo:
Ln(B)= a + b ln(DAP)
23. En “R” existe una función para ajustar modelos lineales llamada “lm”:
4 Cuantificación de la incertidumbre de predicción
4. 2 Incertidumbres de los modelos
# Transformación de variables
LogBTkg<-log(BTkg)
LogDADcm<-log(DAPcm^2)
# Ajuste del modelo
LinearModel<-lm(LogBTkg~LogDADcm)
# Resumen del modelo
summary(LinearModel)
24. En “R” existe una función para describir el resumen de l ajuste llamada “summary”:
4 Cuantificación de la incertidumbre de predicción
4. 2 Incertidumbres de los modelos
Call:
lm(formula = LogBTkg ~ LogDADcm)
Residuals:
Min 1Q Median 3Q Max
-1.24914 -0.20115 -0.02172 0.23641 1.00244
Coefficients:
Estimate Std. Error
(Intercept) -0.46213 0.26736
LogDADcm 0.82937 0.03497
25. En “R” existe una función para obtener las predicciones del modelo y sus IC llamada
“predict”:
4 Cuantificación de la incertidumbre de predicción
4. 2 Incertidumbres de los modelos
prediccion<-as.data.frame(predict(LinearModel, interval="predict"))
Warning message:
In predict.lm(LinearModel, interval = "predict") :
predictions on current data refer to _future_ responses
> prediccion
fit lwr upr
1 4.429775 3.4836216 5.375929
2 5.233971 4.2930118 6.174930
3 4.637746 3.6934062 5.582087
4 5.692462 4.7522572 6.632667
5 5.075180 4.1335851 6.016775
26. Los puntos, el modelo ajustado y sus intervalos de confianza se pueden graficar utilizando
la función “plot”:
4 Cuantificación de la incertidumbre de predicción
4. 2 Incertidumbres de los modelos
plot(DAPcm,BTkg, main="Modelos de biomasa en en función de DAP",
xlab="DAP (cm)",ylab="Biomasa Total (Kg)")
lines(sort(DAPcm), exp(sort(prediccion$fit)), col = 2,type="l",lwd=2)
lines(sort(DAPcm), exp(sort(prediccion$lwr)), col = 3,type="l",lwd=1)
lines(sort(DAPcm), exp(sort(prediccion$upr)), col = 3,type="l",lwd=1)
27. Los puntos, el modelo ajustado y sus intervalos de confianza se pueden graficar utilizando
la función “plot”:
4 Cuantificación de la incertidumbre de predicción
4. 2 Incertidumbres de los modelos
28. Uncertainty of allometric model
𝒀 = 𝜷𝑿 + 𝝐
መ𝛽~𝑁 𝛽, 𝜎𝜀
2
𝑋´𝑋 −1
V=𝜎𝜀
2
𝑋´𝑋 −1
V=LL´
𝐿 =
𝑙11 0
𝑙21 𝑙22
Z=
𝑍1
𝑍2
𝑍1~𝑁 0,1 ; 𝑍2~𝑁 0,1
L Z~𝑁
0
0
, 𝜎𝜀
2
𝑋´𝑋 −1
𝛽𝑠𝑖𝑚𝑢𝑙𝑎𝑑𝑜 = መ𝛽 + 𝐿 𝑍
Recovery
Matrix
Estimación de IC con poca información disponible
29. Example of a real case:
𝑌 = 0.0754 × 𝐷𝐵𝐻2.513
Linear transformation:
𝑙𝑛𝑌 = 𝑙𝑛0.0754 + 2.513 ∗ 𝑙𝑛𝐷𝐵𝐻
𝑛 𝑅2
𝜎𝜀
2
𝑋´𝑋 −1
=
0.0004173840026060638 −0.0013439410717492435
−0.0013439410717492506 0.004344046874135824
34. o Hasta ahorita hemos considerado el análisis de la incertidumbre de los MDS bajo el
enfoque lineal con la finalidad de exponer los conceptos.
o En la práctica los modelos lineales tienen fuertes restricciones para su uso.
o Las relaciones entre las propiedades del suelo y las covariables típicamente no son
lineales y son además mucho más complejas.
o Esto implica por lo tanto el desarrollo de modelos MDS no lineales complejos como:
• árboles de regresión
• Redes neuronales
• Random forest
Estos modelos típicamente son más precisos pero es más difícil de cuantificar su
incertidumbres; por lo que frecuentemente este análisis se deja a la validación cruzada
(sin embargo esto no es substituto de un análisis de incertidumbres espacialmente
explícito)
4 Cuantificación de la incertidumbre de predicción
4. 2 Incertidumbres de los modelos
35. Diferentes fuentes de incertidumbre afectarán las predicciones del MDS:
• Incertidumbres en los parámetros del modelo
• Incertidumbres en la estructura del modelo
• Valores de los atributos
• Localización de los puntos de muestreo
• Valores de las covariables
4 Cuantificación de la incertidumbre de predicción
4. 3 Propagación de las incertidumbres de los atributos, posición
y covariables
36. • Las consecuencias de la presencia de errores de medición significa que los parámetros
del modelo serán más inciertos.
• Se debe de notar que si observaciones diferentes tienen diferentes grados de error de
medición entonces esto influirá en los pesos que cada medida tiene en la calibración y
predicción.
• La ubicación de los puntos de muestreo también afectará la calidad de las predicciones
del MDS calibrado; sin embargo es difícil predecir como la precisión de la predicción se
verá afectada.
4 Cuantificación de la incertidumbre de predicción
4. 3 Propagación de las incertidumbres de los atributos, posición
y covariables
37. Tree 1 Tree 2 Tree 3 Tree 4 Tree 5 Tree 6 Tree 7 Tree 8 Tree 9
DBH1+ɛ
DBH2+ɛ
DBH3+ɛ
DBH4+ɛ
DBH5+ɛ
DBH6+ɛ
DBH7+ɛ
DBH8+ɛ
DBH9+ɛ
Biomass 1
Biomass 2
Biomass 3
Biomass 4
Biomass 5
Biomass 6
Biomass 7
Biomass 8
Biomass 9
𝐵𝑖𝑜𝑚𝑎𝑠𝑠1
𝐵𝑖𝑜𝑚𝑎𝑠𝑠2
𝐵𝑖𝑜𝑚𝑎𝑠𝑠10 000
⋮
38. DBH=30cm
U= 10%
IC: 27-33
Random DBH=32
Bimass (30 cm)=100 kg
U=40%
IC: 60-140
Random Biomass: 130
Meassurement error
Model error
¿CI?