¿Cómo funciona el semivariograma en la interpolación?

La Primera Ley de Geografía de Tobler establece que «todo está relacionado con todo lo demás, pero las cosas cercanas están más relacionadas que las cosas distantes».

En el caso de un semivariograma, las cosas más cercanas son más predecibles y tienen menos variabilidad. Mientras que las cosas distantes son menos predecibles y están menos relacionadas.

Por ejemplo, el terreno de un metro por delante de usted es más probable que sea similar a 100 metros de distancia.

Como aprenderá, el semivariograma traza este concepto de importancia crítica de cómo los valores de la muestra (contaminación, elevación, ruido, etc.) varían con la distancia. Además, le mostraremos cómo se relaciona esto con la interpolación de kriging.

Muestras de humedad del suelo

Nuestro ejemplo contiene 73 muestras de humedad del suelo en un campo de 10 acres. En la esquina noroeste, las muestras son mucho más húmedas con mayor contenido de agua. Pero en el cuadrante este, están mucho más secas que las codificadas por colores en la imagen de abajo.

¿Cuán predecibles son los valores de un lugar a otro?
¿Son los valores conocidos más cercanos entre sí más similares que los valores más alejados?

Esta idea se puede describir con dependencia estadística o autocorrelación. Además, la autocorrelación (las cosas más cercanas entre sí son más similares que las más distantes) proporciona información valiosa para la predicción.

Cómo funcionan los semivariogramas

Para entender la dependencia espacial, puede estimarla con un semivariograma. Los semivariogramas toman 2 posiciones de muestra y llaman a la distancia entre ambos puntos h.

En el eje X, traza la distancia (h) en rezagos, que son sólo distancias agrupadas. Tomando cada conjunto de 2 ubicaciones de muestra, mide la varianza entre la variable de respuesta (contenido de agua en el suelo) y la traza en el eje Y.

Dependiendo del observador, los semivariogramas parecen un gran lío de puntos. Por ejemplo, nuestra parcela de humedad del suelo se ve así:

Pero realmente puedes hacer algo de trabajo de detective seleccionando puntos individuales. Cuando tomas este único punto en el semivariograma:

Puedes ver qué representan 2 puntos en el mapa. Esto tiene sentido porque están muy alejados unos de otros. Por lo tanto, su posición extrema derecha en el semivariograma. En realidad es este punto resaltado a continuación:

También tienen una gran diferencia del valor medio en esa distancia de retraso en particular. Se posiciona más alto en el eje Y si la semivarianza es alta. Como probablemente habrá notado, la semivarianza es más pequeña a distancias más cercanas y aumenta con distancias de rezagos más grandes.

Siempre recuerde:

Estamos observando la distancia entre 2 muestras y su variabilidad. Un semivariograma considera todos los puntos y su distancia con varianza. Por eso los semivariogramas tienen tantos puntos. Aquí hay un subconjunto del conjunto de datos anterior para ver todos los diferentes conjuntos de puntos que se están trazando en un semivariograma.

¿Cuál es el rango, umbral y borde en semivariogramas?

En los puntos de la muestra con distancias cortas, la diferencia de valores entre puntos tiende a ser pequeña. En otras palabras, la semivarianza es pequeña.

Pero cuando las distancias de los puntos de la muestra son más lejanas, es menos probable que sean similares. Esto significa que la semivarianza se vuelve grande.

A medida que aumenta la distancia de los puntos de muestreo, ya no existe una relación entre éstos. Su varianza comienza a estabilizarse y los valores de la muestra no están relacionados entre sí.

SILL: El valor al que el modelo se aplana primero.

RANGE: La distancia a la que el modelo se aplana por primera vez.

NUGGET: El valor al que el semivariograma (casi) intercepta el valor Y.

Cuando tiene dos puntos de muestra en la misma ubicación, se espera que tenga el mismo valor para que el nugget sea cero. A veces no lo hacen y esto agrega aleatoriedad. Pero antes de que el gráfico comience a nivelarse, estos valores se correlacionan automáticamente en el espacio.

Como era de esperar, cuando la distancia aumenta, la semivarianza aumenta. Hay menos pares de puntos separados por grandes distancias, de ahí la menor correlación entre los puntos de la muestra.

Pero como se indica en el semivariograma con el sill (umbral) y el range (rango), comienza a alcanzar su nivel plano y asintótico. Esto es cuando usted trata de ajustar una función para modelar este comportamiento.

Función y modelos matemáticos

Se selecciona el tipo de modelo para saber cómo se ajusta a los datos porque proporcionará una función matemática a la relación entre valores y distancias. Utilizamos las funciones que mejor se adaptan como exponencial, lineal, esférica y gaussiana.

Idealmente, usted está tratando de reducir su valor R-cuadrado, lo mejor posible. Sin embargo, cuando se tiene una comprensión de cómo se comporta el fenómeno con la distancia, se puede elegir mejor el modelo a utilizar.

Por ejemplo, aquí están las funciones matemáticas que puede aplicar a los semivariogramas:

1.- Modelos Lineales

Un modelo lineal significa que la variabilidad espacial aumenta linealmente con la distancia. Es el tipo más simple de modelo sin meseta, lo que significa que el usuario tiene que seleccionar arbitrariamente el umbral y el rango.

2.- Modelos esféricos

El modelo esférico es uno de los modelos más comunes que utilizamos en el modelado de variogramas. Es una ecuación cuadrática modificada en la que la dependencia espacial se aplana así como el umbral y el rango.

3.- Modelos exponenciales

El modelo exponencial se asemeja al modelo esférico en que la variabilidad espacial alcanza el umbral de forma gradual. La relación entre dos puntos de la muestra decae gradualmente, mientras que a una distancia de infinita dependencia espacial se disipa.

4.- Modelos Gaussianos

La función Gaussiana utiliza una curva de distribución de probabilidad normal. Este tipo de modelo es útil cuando los fenómenos son similares a distancias cortas debido a su ascenso progresivo sobre el eje Y.

5.- Modelos circulares

Este tipo de modelo de predicción utiliza una función circular para ajustar la variabilidad espacial en un semivariograma. Se asemeja a la función del modelo esferical donde la dependencia espacial se desvanece en su nivel asintótico.

Conclusión

Los semivariogramas proporcionan un paso preliminar útil para comprender la naturaleza de los datos.

Cada fenómeno tiene su propio semivariograma y su propia función matemática. El usuario descubre la relación entre valores y distancias y luego elige el mejor modelo de ajuste.

Aunque los semivariogramas son útiles para entender la variación con la distancia, el modelo que usted elige de los semivariogramas comúnmente se utiliza en el kriging. Debido a que este tipo de técnica de interpolación utiliza el modelo matemático del semivariograma, es una de las mejores formas de predicción en la actualidad.

Esto se debe a que el modelo de variograma influye en la predicción de esos valores desconocidos durante la interpolación de kriging.

Traducido desde: GISGeography