Geoestadística, interpolación con Kriging

Para entender realmente el kriging, hay que saber lo que es la interpolación. Como en toda interpolación, estamos prediciendo valores desconocidos en otros lugares.

Con un método de interpolación como la ponderación de distancia inversa, usted está haciendo predicciones sin decir cuán seguro está.

Aquí hay un ejemplo:

Predecimos el punto púrpura, tomando una distancia ponderada inversa de los tres puntos de entrada más cercanos (los valores de 12, 10 y 10). Basándonos en la distancia, calculamos hasta dónde llega cada punto de entrada y obtenemos un valor de 11.1.

((12/350) + (10/750) + (10/850)) / ((1/350) + (1/750) + (1/850)) = 11.1

Interpolación determinística

Así es exactamente cómo funciona la interpolación determinista. Simplemente, utiliza una función predefinida y es lo que es. Pero no te dice lo seguro que estás.

¿Qué es la interpolación de Kriging?

Si un meteorólogo hace un pronóstico diciendo que va a llover mañana, ¿qué tan seguro estás de que va a llover?

En otras palabras:

En vez de decir solamente cuánta lluvia hay en lugares específicos, kriging también le dice la probabilidad de cuánta lluvia habrá en un lugar específico.

Los datos de entrada se utilizan para construir una función matemática con un semivariograma, crear una superficie de predicción y, luego, validar el modelo con validación cruzada.

La geoestadística no sólo proporciona una superficie de predicción óptima, sino que también proporciona una medida de confianza sobre la probabilidad de que esa predicción sea cierta.

Modelo de predicción

Mientras tanto, kriging puede generar las superficies de predicción y las superficies que describen qué tan bien predice su modelo:

Predicción: Esta recta de superficie predice los valores de su variable que está kriging.

Error de predicción: Si representa el error estándar con un estándar de error más alto donde no hay tantos datos de entrada.

Probabilidad: La superficie de probabilidad resalta cuando excede un umbral.

Cuantil: Esta superficie representa un escenario del mejor o peor caso como un percentil 99.

La clave de Kriging es el semivariograma

Kriging confía en el semivariograma. En términos simples, los semivariogramas cuantifican la autocorrelación porque grafican la varianza de todos los pares de datos según la distancia.

Lo más probable es que las cosas más cercanas estén más relacionadas y tengan una pequeña semivarianza. Mientras que las cosas lejanas están menos relacionadas y tienen una alta semivarianza.

Pero a cierta distancia (rango), la autocorrelación se vuelve independiente. Donde esa variación se nivela, se llama (umbral). Esto significa que ya no hay ninguna autocorrelación espacial o relación entre la cercanía de sus puntos de datos. Este concepto es la Primera Ley de Geografía de Tobler.

Primera Ley de Geografía de Tobler

Una vez más, el propósito aquí es encajar una superficie como un polinomio que modela la tendencia general a gran escala. Luego, en torno a esa tendencia, tenemos variabilidad con los residuos en los que interviene el kriging.

Basándose en los resultados de su semivariograma, puede seleccionar un semivariograma esférico, circular, exponencial, gaussiano o lineal. Alternativamente, si puedes hacer una justificación intelectual para un modelo matemático, entonces escoges esa.

Semivariograma

Antes de comenzar, verifique sus datos

Incluso antes de comenzar el kriging, sus datos deben cumplir con este criterio antes del kriging ordinario.

Kriging es la técnica de interpolación óptima si sus datos cumplen ciertos criterios. Pero si no cumplen estos criterios, puedes masajearlo o elegir una técnica de interpolación diferente.

  • Sus datos deben tener una distribución normal
  • Los datos deben ser estacionarios.
  • Sus datos no pueden tener tendencias.

Los pasos siguientes son maneras de verificar sus datos para ver si cumplen con este criterio. Primero, sugerimos trazar tus puntos y simbolizarlos de abajo hacia arriba. En nuestro ejemplo, utilizamos muestras de humedad del suelo tomadas en un campo agrícola:

Distribución de datos para análisis

Supuesto 1. Sus datos tienen una distribución normal

En esta prueba no estamos explorando las propiedades espaciales, sólo estamos comprobando que los valores estén distribuidos normalmente. En otras palabras, ¿los valores de sus datos se ajustan a la forma de una curva de campana?

Una de las maneras de explorar esto es usando un histograma. En ArcGIS, haga clic en Geostatistical Analysis > Explore Data > Histogram.

En este punto, puede comprobar el histograma para ver si hay valores atípicos y cuánto se parece a una curva de campana. En nuestro caso, parece que tiene una distribución normal bastante buena.

Histograma con distribución normal

Alternativamente, puede comprobar sus datos con un gráfico QQ normal. Un gráfico QQ normal compara cómo se alinean sus datos con los datos distribuidos normalmente. Si todos los puntos tienen una distribución perfectamente normal, todos tus puntos caerán en la línea de 45°. En nuestro caso, los datos siguen una línea recta.

Gráfico QQ normal

¿Qué pasa si sus datos no tienen una distribución normal?

En este caso, tendrá que aplicar una transformación como un log o un arco hasta que se vuelva normal. En lugar de seleccionar su propia transformación, puede hacer una transformación de puntaje normal que hace mucho del trabajo por usted. La transformación de puntaje normal es tan poderosa que ahora es el método predeterminado como simple kriging en ArcGIS. Explicamos esto con más detalle a continuación.

Supuesto 2. Sus datos son fijos

¿Qué significa que sus datos tienen que ser estacionarios?

Esto significa que la variación local no cambia en diferentes áreas del mapa. Por ejemplo, 2 puntos de datos separados por 5 metros en diferentes ubicaciones deberían tener diferencias similares en su valor medido. La varianza es bastante constante en diferentes áreas del mapa. Kriging no es óptimo para cambios bruscos y líneas de rotura.

Puede comprobar la estacionariedad de sus datos con un mapa Voronoi simbolizado por entropía (variación entre vecinos) o desviación estándar y buscar aleatoriedad. En ArcGIS, haga clic en Geostatistical Analysis > Explore Data > Voronoi Map.

En nuestro caso, vemos algunas pequeñas cantidades de agrupamiento. En general, para la entropía y la desviación estándar, los mapas de voronoi muestran que el conjunto de datos se ve adecuadamente estacionario.

Mapa de Varoni

¿Qué se puede hacer si los datos no son fijos?

El kriging bayesiano empírico (EBK) puede ayudar tratando la varianza local por separado. En lugar de que la desviación sea similar en su totalidad, EBK realiza el kriging como un proceso subyacente separado en áreas diferentes. Todavía realiza el kriging, pero se hace localmente.

Supuesto 3. Sus datos no tienen tendencias

Las tendencias son cambios sistemáticos en los datos de toda un área de estudio. Podemos comprobar el análisis de tendencias con la herramienta ESDA. En ArcGIS, haga clic en Geostatistical Analysis > Explore Data > Trend Analysis.

La línea verde muestra la tendencia en la dirección este-oeste, y la línea azul representa la tendencia en la dirección norte-sur. Generalmente, tenemos valores de humedad del suelo más altos en el centro. Pero no hay suficiente tendencia en nuestros datos que necesite ser eliminada.

Análisis de tendencias

¿Qué pasa si sus datos tienen tendencias sistemáticas?

Aunque tener grandes tendencias en toda su área de estudio puede ser una razón para cambiar los métodos de interpolación, la herramienta de eliminación de tendencias puede ser de ayuda para que el siguiente análisis no se vea influenciado por esa tendencia en sus datos.

Ejemplo de Kriging en ArcGIS

Después de explorar sus datos para los criterios anteriores, puede hacer clic en Geostatistical Analysis > Geostatistical Wizard.

…Y ahora la diversión comienza de verdad, dicho con sarcasmo.

Paso 1 Seleccione Kriging/Co-Kriging

Ahora que tiene el Asistente Geoestadístico abierto, kriging está bajo los métodos geoestadísticos. Mencionado anteriormente, esto se debe a que usted construye su superficie de predicción óptima con un semivariograma y puede estimar una medida de confianza de la probabilidad de que esa predicción sea cierta.

Fíjate que si seleccionas una sola entrada, es simplemente un kriging. Pero cuando se añade una segunda variable, de repente se convierte en co-kriging.

Si tiene 2 o más variables relacionadas, como por ejemplo el cambio de la precipitación en las áreas montañosas, entonces puede agregar datos de elevación como una covariable a las cantidades de precipitaciones. En este caso, puede mejorar la predicción con información secundaria.

Análisis utilizando covariables

Paso 2 Elija el tipo de Kriging

Ahora, demos un paso atrás por un segundo para entender lo que significan todas las opciones. Hay mucho que absorber en este paso.

El kriging ordinario era el predeterminado en ArcGIS 10.0. Ahora, debido a la transformación de puntuación normal, el kriging simple es el predeterminado. En particular, el kriging simple utiliza una transformación de puntuación normal transformando sus datos en una distribución normal estándar.

Como se mencionó anteriormente, este es uno de los criterios esenciales para realizar el kriging. Para usuarios básicos, su mejor opción es tomar el enfoque de kriging simple. Pero existen otros tipos de kriging más complicados:

Universal Krigingcombina el análisis de la superficie de la tendencia (deriva) con el kriging ordinario, teniendo en cuenta las tendencias.

Indicator Kriging lleva a cabo kriging ordinario con datos binarios (0 y 1) tales como celdas urbanas y no urbanas.

Probability Krigingutiliza datos binarios (similares al indicator kriging) y estima puntos desconocidos para una serie de cortes.

Por último, puede configurar manualmente el tipo de transformación y la eliminación de tendencias en este paso. Por ejemplo, si quiere cambiar su transformación a log, aquí es cuando puede hacer este cambio.

Asistente geoestadístico

Paso 3 Datos del modelo con un semivariograma

En este ejemplo, usamos kriging orinario para propósitos de demostración. El asistente geoestadístico genera un semivariograma con cruces azules que muestran la variación media de cada par de puntos.

El tamaño del retardo es el tamaño de una clase de distancia en la que se agrupan pares de ubicaciones. Como regla general, puede multiplicar el tamaño del retardo por el número de retardo para que sea igual a la mitad de la distancia más grande entre todos los puntos. Si sus puntos no están agrupados, puede ejecutar la herramienta “Promedio del vecino más cercano ” (Average Nearest Neighbor) que le indica la distancia promedio entre puntos.

ArcMap ha añadido la funcionalidad para optimizar todos estos parámetros para usted. Cuando haga clic en el botón de optimización, encontrará el valor para cada parámetro que resulte en el menor error cuadrático medio. Eso sería mucho ensayo y error para que el usuario pruebe cada escenario. En última instancia, generalmente es mejor seguir el modelo de semivariograma que el software considera como el mejor.

Para nuestra área de estudio, así es como se ve el semivariograma:

Semivariograma del modelo de datos

Paso 4 Trazar un mapa del modelo con el peso de Kriging

Una vez que esté satisfecho con el semivariograma instalado, el asistente le ofrece una superficie de vista previa con más parámetros para personalizar el resultado. Lo que hace el kriging es predecir las respuestas en cada lugar usando un promedio ponderado con los vecinos más cercanos. Pero primero, tienes que establecer el número de puntos (máximo y mínimo) a utilizar en tu radio de búsqueda.

A pesar de hablar tanto de la importancia de los semivariogramas en el kriging, este paso influye enormemente en la salida de su mapa. Si cambia cualquiera de estos parámetros, el aspecto de la superficie puede alterar sustancialmente.

Si selecciona uno de los tipos de sector de división, esto asegura que habrá puntos incluidos para estimar en cada una de esas divisiones. Por ejemplo, si usa un pastel de cuatro divisiones y establece sus vecinos en 5, entonces cada división usará 5 puntos (un total de 20) para los estimados locales. Como no existe una fórmula de ajuste perfecta, la clave es desplazarse y comprobar los valores pronosticados para ver cómo debe verse la salida.

Asistente geoestadístico

Paso 5 Comprobar los resultados de la validación cruzada

El paso de validación cruzada para kriging toma uno de sus puntos de datos de entrada y lo lanza fuera del conjunto de datos. Usando todos los puntos restantes, ejecuta la predicción de vuelta a esa ubicación. Una vez más, usted sabe cuál es el verdadero valor, este proceso utiliza todo lo que queda para predecir ese valor.

Para la validación cruzada, itera (repite) a través de todos los puntos de entrada hasta que se completa. Luego, crea esta tabla resumen de residuos comparando los valores reales con los valores predichos de su modelo. Lo que muestra esta tabla es la robustez real de su modelo.

Entonces, ¿qué tan cerca están los valores verdaderos de los valores pronosticados? En otras palabras, ¿qué tan bien encaja su modelo en los datos? Para poner todo esto en perspectiva, comprueba tu raíz media-cuadrada estandarizada, ya que debería estar cerca de 1. Además, el error cuadrático medio debe ser lo más pequeño posible.

Validación cruzada

La capa geoestadística dinámica

Al ser la salida una capa geoestadística, y ser dinámica, significa que puede cambiar su tipo de salida como predicción, errores de predicción, probabilidad o cuantiles. O incluso puede volver a la capa geoestadística y cambiar los parámetros si no le gusta la salida optimizada.

Hay una ciencia y un arte en el kriging.

No sólo es la forma de elegir el modelo a partir de un semivariograma, sino también la forma de configurar el número de contenedores y otros ajustes. Este es el arte del kriging.

Cuando usted representa su superficie de kriging, como al elegir el número de intervalos, puede dar una impresión diferente sobre los resultados. Mientras que más clases ofrecen más detalles, el método de clasificación de datos (como cuantiles o intervalos iguales) ordena los datos de forma diferente.

Superficie de predicción

La predicción es fuerte en Kriging

La predicción espacial implica algún componente de aleatoriedad. Esto es crucial en la geoestadística cuando se hacen inferencias sobre un conjunto de datos.

Sus pesos de kriging se calculan a partir del variograma. Más específicamente, se deriva del modelo que usted elija. La calidad de la superficie estimada se refleja en la calidad de los pesos. Usted quiere pesos que den una predicción imparcial y la menor varianza.

En otras palabras, kriging encuentra el patrón espacial. Luego predice valores desconocidos basados en ese patrón espacial. Con estas predicciones, el kriging genera una medida de error o incertidumbre. Esto significa que usted puede estimar la confianza en la superficie de la predicción que son verdades, no producto de la casualidad. Porque no sólo personalizas tu función matemática para construir una, sino que también utilizas el poder del análisis estadístico, es decir, el semivariograma.

Kriging es un método geoestadístico que predice el valor en un área geográfica a partir de un conjunto de datos conocidos. Se utiliza en minería, suelos, geología y ciencias ambientales.

No existe una metodología única que funcione para todos. En lo que se refiere a sus datos, sólo usted puede decidir cuáles son esos ajustes y cuál es la mejor manera de generar una superficie de predicción.

Traducido desde: GISGeography

15 comentarios en “Geoestadística, interpolación con Kriging”

  1. Hace mucho tiempo había buscado saber sobre el tipo de interpolación kriging, no encontré un dato tan comprensible como este. ¡Muy buen trabajo, siga adelante!

    Responder
  2. como se puede encontrar la correlación con más variables ejemplo pH, como se relaciona con la pendiente, temperatura, precipitación, vías, ríos, et como se lo puede relacionar con kriging o Cokigring

    Responder
  3. Gracias por tu tutorial, muy bien explicado. Quisiera saber si puedo extrapolar también hacia el futuro, o sea, si conociendo la relación entre una variable y las variables bioclimáticas del wordclim en el presente, puedo saber cómo se comportará esta misma variable hacia el 2050 para un escenario de cambio climático, asumiendo que se mantiene constante su relación con el clima. Por favor, si tienes alguna sugerencia en este sentido me será muy útil en mi investigación.

    Responder
  4. Buenos dias excelente explicación estoy tratando de hacer un modelo de precipitación mediante la interpolación por Kriging y al realizarlo me daba muchos errores. Esta información me ha ayudado mucho para aclarar la duda del modelo.

    Responder

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.