La interpolación que elija para su escala de colores influye enormemente en la forma en que se perciben los datos, en lo bien que se comunica su planteamiento y en la forma en que el lector entiende los datos de forma intuitiva.
En este artículo, nos centramos en el efecto de las interpolaciones en los mapas de coropletas, pero también puede utilizar escalas de color clasificadas y no clasificadas para los mapas de símbolos, los mapas de calor y cualquier otro lugar en el que intente asignar datos a un gradiente de color.
Índice
A Elija una interpolación basada en la distribución de sus datos
B Interpolaciones para escalas de color clasificadas
01 Valores lineales (equidistantes) y redondeados
02 Cuantil (equidistante)
03 Rupturas naturales (Jenks)
04 Interpolación personalizada
C Interpolaciones para escalas de color no clasificadas
01 Lineal
02 Mediana, cuartiles, quintiles, deciles
03 Interpolación natural
D El compromiso entre veracidad y utilidad
Elija una interpolación basada en la distribución de sus datos
No importa si está utilizando Datawrapper u otra herramienta, y no importa si está creando una escala de colores clasificada o no clasificada, encontrará una pequeña función como ésta que le permite elegir diferentes tipos de interpolación:
Dependiendo de la interpolación que elijamos, nuestros datos se segmentarán en partes de diferente tamaño – y nuestros valores se colorearán de forma diferente.
Quizás estés pensando: «¿Cuál es el problema? Tengo un valor mínimo y un valor máximo. Basta con dar al valor más bajo el color más brillante y al valor más alto el color más oscuro, y rellenar todos los valores intermedios de forma lineal». Eso es lo que obtenemos cuando elegimos una interpolación «lineal» en las escalas de color continuas o clasificadas.
Es una buena opción cuando la distribución de nuestros valores es bastante uniforme, sin muchos valores extremos.
Sin embargo, a menudo tenemos una distribución complicada con fuertes valores atípicos. Digamos que queremos trazar la tasa de desempleo media de 2016 en cada uno de los 3219 condados de Estados Unidos:
Un histograma de los datos de desempleo de 2016. Debajo del histograma se encuentra el llamado «strip plot», «barcode plot» o «rug plot», en el que cada valor individual se muestra con una línea vertical. Obsérvese que he «salpicado» este gráfico de bandas: Hay muchos valores superpuestos en torno a 1,8 │ 1,9 │ 2,0, así que los he desplazado un poco hacia la izquierda y la derecha (1,79 │ 1,81 │ 1,82 │ etc.), para que las líneas sean más visibles.
Ese gráfico de columnas sin espacios entre ellas es un histograma. Es un tipo de gráfico que nos muestra cuántos valores ocurren con qué frecuencia en nuestro conjunto de datos. Vemos que la mayoría de los condados tienen una tasa de desempleo bastante baja: La barra más alta de nuestro histograma corresponde al rango de tasas de desempleo del 4,5% al 5%. Más de 400 condados tienen una tasa de desempleo que entra en ese rango.
Pero el histograma también nos muestra valores atípicos en nuestros datos: Unos pocos condados tienen una tasa de desempleo superior al 15%. Un condado tiene incluso una tasa de desempleo del 23,5%.
¿Cómo podemos trazar una distribución de este tipo? Veamos primero las escalas de color clasificadas para responder a esta pregunta
Interpolaciones de las escalas de color clasificadas
Para distribuciones bastante uniformes (o para llamar la atención sobre los valores atípicos):
Valores lineales (equidistantes) y redondeados.
Si elegimos una interpolación lineal en Datawrapper para nuestros datos, tomará la distancia entre nuestro valor más bajo y el más alto (23,5% – 1,7% = 21,8%) y la dividirá en el número de pasos que elijamos. En este caso, elegimos cinco pasos:
El 21,8% dividido entre cinco es 4,36, por lo que Datawrapper cortará los datos en el 1,7% + 4,36 = 6,06%, luego en el 10,42%, luego en el 14,78% y finalmente en el 19,14%. Cada uno de esos pasos obtiene un color de nuestra escala de colores clasificada:
Podemos ver que este enfoque no funciona muy bien en nuestro mapa. La mayoría de los condados se colorean igual -con el color más claro- porque el primer paso incluye más de la mitad de todos los condados. De hecho, el 70% de los condados están coloreados en ese mismo verde claro.
Sigue siendo un mapa decente si queremos llamar la atención sobre esos desafortunados condados en los que hay mucha gente desempleada. Estos valores atípicos contrastan con el resto de los condados de color amarillo verdoso. Pero en realidad no podemos ver ningún patrón geográfico fuerte aquí. Queremos que más regiones sean más oscuras.
Aunque no funciona bien para nuestros datos, es probablemente la forma más intuitiva de cortar una escala de colores. Recomiendo elegir siempre una interpolación lineal cuando se empieza a diseñar un mapa – y de hecho, eso es lo que Datawrapper nos da por defecto.
Otra forma intuitiva, pero más legible, es utilizar valores redondeados. También en este caso, Datawrapper corta los datos en segmentos de tamaño similar. Pero deja de lado la matemática exacta para darnos valores atractivos, redondos y fáciles de digerir:
Esta interpolación también funciona mejor para distribuciones bastante uniformes sin valores atípicos disparatados – y por lo tanto no para nuestros datos. Parece que tendremos que utilizar interpolaciones más complejas para ver las diferencias regionales en nuestros condados con bajo desempleo:
Para distribuciones con valores extremos: Cuantil (equal count).
Nuestro mapa sería mejor si se rellenaran más condados con los colores azul medio y oscuro que casi no se utilizan hasta ahora. Esa es la idea de los cuantiles: Distribuir los colores uniformemente en nuestras regiones.
Los cuantiles cortan los datos en segmentos con el mismo número de valores. Una mediana es un cuantil con dos segmentos: El 50% de los valores son superiores a la mediana, el 50% son inferiores a la mediana. Por eso la mediana también se llama «percentil 50».
También se puede pensar en la mediana de esta manera: Nuestro conjunto de datos tiene 3219 condados. Si recorremos nuestro gráfico de alfombrilla de izquierda a derecha y obtenemos la tasa de desempleo de cada condado, encontraremos que el 1610º condado (el del centro) tiene una tasa de desempleo del 5%. Esa es la mediana. La mitad de los condados tienen una tasa de desempleo superior al 5% y la otra mitad una inferior.
Dependiendo del número de pasos que elijamos, podemos cortar nuestros datos en tres, cuatro, cinco o un billón de segmentos.
Nuestros mapas muestran cinco colores, por lo que tendremos cinco cuantiles iguales, también llamados quintiles. El primer quintil es el percentil 20: el 20% de los condados tiene una tasa de desempleo más baja, mientras que el 80% tiene una más alta. Datawrapper hace las cuentas por nosotros y nos dirá que nuestro primer quintil está en el 3,8%. Es decir, si dividimos nuestro número de condados para cinco (3219/5 = 643,8) y comprobamos el condado número 643 en nuestro gráfico de alfombrilla, encontraremos que tiene una tasa de desempleo del 3,8%.
Si vamos otros 643 condados a la derecha, llegaremos a uno con una tasa de desempleo del 4,6%, que es nuestro percentil 40, o segundo quintil. Y si vamos otros 643 condados a la derecha, llegaremos a nuestro percentil 60 (¡el tercer quintil!): 5.5%.
Estos cortes definen los niveles de nuestros colores: Los condados entre el valor más bajo y el primer cuantil obtienen nuestro color más brillante, los condados entre el primer y el segundo cuantil obtienen nuestro segundo color más brillante, y así sucesivamente:
Woah, ¡esto es muy diferente de los mapas que creamos antes! En la interpolación cuantílica, cada color llena exactamente el mismo número de regiones (643 en nuestro caso). El azul más oscuro recibe tanto tiempo de exposición como el verde claro brillante. Los cuantiles nos muestran las diferencias que nos faltaban en los mapas lineales y redondeados. Pero también nos hacen pensar que el 20% de los condados tienen la tasa de desempleo más alta, lo cual es bastante extremo.
¿Hay algún compromiso? ¿Algo que deje claro que sólo hay unos pocos valores atípicos, y que al mismo tiempo muestre las diferencias en las demás regiones? (El hecho de que yo formule esta pregunta ya implica que lo hay, así que:) ¡Sí, lo hay!
Para tener en cuenta la distribución:
Natural breaks (Jenks).
La interpolación «Natural breaks» hace exactamente eso. Tiene en cuenta cómo se distribuyen nuestros datos. Así es como lo hace: «Natural» corta los datos en partes para que los valores dentro de cada parte estén lo más cerca posible.
¿Qué significa esto exactamente? Pues bien, «Natural» crea grupos para que la suma de las diferencias entre los valores agrupados sea siempre la misma. En el pico de nuestro histograma, tenemos muchos condados con valores muy agrupados (4,6 │ 4,6 │ 4,6 │ 4,7 │ 4,7 │ 4,8 │ 4,8 │ etc.). Las diferencias entre ellos son minúsculas, por lo que «Natural» agrupa un gran número de ellos (0,0 + 0,0 + 0,1 + 0,0 + 0,1 + 0,0 + …). Mientras tanto, nuestros valores atípicos del lado derecho del histograma están muy separados entre sí (12,5 │ 12,8 │ 20,1 │ 23,5), por lo que sólo unos pocos pueden «encajar» en un grupo (0,3 + 7,3 + 3,4 + …).
Esa es la magia de la interpolación «Natural»: Si hay muchos valores cercanos, «Natural» agrupa más de ellos; si hay menos cerca (nuestros valores atípicos), entonces agrupa menos.
Para nuestros datos, esto parece funcionar bien. Obtenemos una buena diferencia de color entre las regiones alrededor de la mediana, pero sólo unas pocas regiones muestran el azul más oscuro y, por tanto, son claros valores atípicos.
Sin embargo, podemos hacerlo aún mejor: Estos valores no redondos (4,1 │ 5,7 │ etc.) son difíciles de leer. Vamos a mejorar esto con la interpolación personalizada:
Por flexibilidad y para facilitar la lectura de los pasos:
Interpolación personalizada.
Las interpolaciones personalizadas son el «todo vale» de las escalas de color clasificadas. Te permite definir los pasos por ti mismo:
Eso es mucho poder – y si el tío Ben de Spider-Man nos enseñó algo, es que un gran poder conlleva una gran responsabilidad. Si tienes poca experiencia con el mapeo, lo más seguro es que optes por las otras opciones de interpolación.
En nuestro caso, podemos utilizar los pasos personalizados para crear una clave de color ligeramente menos precisa, pero mucho más legible, para nuestros datos. Para ello, simplemente redondeamos los cortes de la interpolación natural: 4.1 → 4 │ 5.7 → 6 │ 7.9 → 8 │ 12.3 → 12.
Las diferencias son apenas visibles (fíjate en la esquina superior derecha para ver algunas regiones coloreadas de forma diferente). El mapa nos sigue dando la misma impresión, a la vez que nos ofrece una clave de color más agradable de leer.
Interpolaciones para escalas de color no clasificadas
Hasta ahora hemos visto las interpolaciones para las escalas de color clasificadas. Pero también podemos aplicar interpolaciones a escalas no clasificadas (también llamadas «continuas» o «lineales»). Encontrará opciones de interpolación similares en Datawrapper para escalas de color no clasificadas, pero no son exactamente las mismas:
Así es como funcionan estas opciones.
Para distribuciones bastante uniformes (o para llamar la atención sobre los valores atípicos):
Interpolación lineal.
La interpolación lineal toma cada valor entre el mínimo y el máximo y le asigna un color entre el más brillante y el más oscuro de forma lineal.
Para nuestros datos, tenemos el mismo problema que en la escala de color lineal clasificada: muchos condados tienen un color brillante similar. Sólo los pocos condados atípicos con tasas de desempleo muy altas tendrán un color oscuro.
Para las distribuciones con valores extremos:
Mediana, cuartiles, quintiles, deciles
Probemos otra cosa: ¡Cuantiles! Son los puntos de corte (como la mediana, los quintiles, los percentiles) que dividen nuestros datos en grupos del mismo tamaño. Cuando hablamos de las escalas clasificadas, simplemente coloreamos todos los condados en cada uno de estos grupos de cuantiles con un determinado color. Pero en las escalas no clasificadas, cada condado tiene un color ligeramente diferente, incluso dentro de un mismo grupo de cuantiles. Así es como las herramientas de mapeo hacen que esto funcione:
Cuando seleccionamos un cuantil en Datawrapper (mediana │ cuartiles │ deciles), la herramienta divide nuestros valores en trozos de igual tamaño y luego los distribuye en la escala de colores.
Probemos primero con la mediana. La mitad de los condados -1610- tienen una tasa de paro del 5% o menos, así que esa es nuestra mediana. Podemos marcar ese punto medio en los datos.
Ahora viene el truco mágico para conseguir que más condados aparezcan más oscuros: Ponemos la mediana del condado en el 50% del gradiente de color e incrementamos los valores de los datos más bajos para cubrir toda la gama desde nuestro color más brillante hasta ese color central. Luego extendemos los valores de datos más altos desde ese color central hasta nuestro color más oscuro:
Así es como se ve en el mapa y en el histograma. Observará que en lugar de estirar el mapa de coropleta como hicimos anteriormente, extendemos el gradiente en el siguiente histograma y en la clave de color de la parte superior derecha:
Bien, ¡hemos conseguido «diversificar» los colores utilizados para rellenar los condados! Nuestro mapa parece ahora más oscuro que antes. La mitad de los condados se rellenan con colores de la mitad derecha de nuestra escala de colores. En el mapa lineal que creamos antes, sólo el 3% de los condados tenían colores de la mitad derecha de nuestra escala de colores.
Dicho esto, la mayoría de las regiones están ahora coloreadas en un azul muy similar. Ese azul se aplica a todos los valores cercanos a la mediana. No hemos aumentado mucho el número de condados que utilizan nuestro azul más oscuro.
¿Qué podemos hacer para conseguirlo? Podemos diversificar más. En lugar de dividir nuestros valores y el gradiente en dos, podemos dividir ambos en cuatro. Estimado lector, conozca: la interpolación de cuartiles.
Para esta interpolación, también cortamos los valores. Seguimos viendo nuestra mediana, o «percentil 50». Pero como cortamos nuestros datos en cuatro en lugar de dos partes, también añadimos el percentil 25 -el «primer cuartil»- situado en el 4% de desempleo. Esto significa que el 25% de nuestras tasas de desempleo son inferiores al 4% y el 75% de los valores son superiores. Y también obtenemos el 6,3% de desempleo como percentil 75 (lo que significa que el 75% de los condados tienen un valor inferior al 6,3%).
Para crear la interpolación de cuartiles, cortamos nuestro gradiente en cuatro piezas y ajustamos los valores entre nuestros cuartiles para que encajen en estas cuatro piezas:
¡Definitivamente tenemos más condados ahora que tienen un azul oscuro! Genial.
Pero podemos ir aún más lejos. «Cuartil» divide la escala de colores en cuatro partes, pero Datawrapper también nos ofrece «Quintiles» (cinco partes – ya los conocimos en el último capítulo) y «Deciles» (diez partes):
La diferencia entre los cuartiles, los quintiles y los deciles no es muy grande cuando mapeamos este tipo de datos. (Sí, los azules son un poco más oscuros en la interpolación por deciles que en las interpolaciones por quintiles o cuartiles. Pero eso no nos ayuda a ver más patrones geográficos.
Cuando miramos todos estos mapas, vemos el mismo dilema que teníamos con las escalas clasificadas: En los mapas lineales y de mediana, la mayoría de las regiones tienen un color similar. Las interpolaciones de cuartiles, quintiles y deciles muestran a los lectores más varianza, pero también les hacen pensar que no hay valores atípicos, sólo muchos condados con una tasa de desempleo elevada.
Tener en cuenta la distribución:
Interpolación natural.
De nuevo, la interpolación natural viene al rescate. Una vez realizados los cortes como se describe en la sección «Natural» del último capítulo, los valores entre ellos se amplían para ajustarse a los cinco segmentos del gradiente, exactamente como en cualquier interpolación cuantílica:
He aquí una comparación de todas las interpolaciones para nuestros datos utilizando las escalas de color continuas que hemos visto. Primero, los gradientes:
Como ya hemos dicho, no hay grandes diferencias entre Cuartiles, Quintiles y Deciles para nuestro conjunto de datos, aparte de que el azul es más oscuro en la interpolación Deciles. La interpolación Natural destaca por utilizar el verde brillante durante mucho tiempo antes de pasar al azul, pero luego utiliza un azul más oscuro antes que las interpolaciones Mediana o Lineal.
En nuestro mapa, las diferencias entre las interpolaciones se manifiestan así:
Tómate un minuto para comparar algunos condados entre sí. ¿Qué mapa preferiría ver cuando busque información sobre la tasa de desempleo de los condados de Estados Unidos?
El compromiso entre veracidad y utilidad.
Hasta ahora hemos visto bastantes interpolaciones. ¿Cuál debería utilizar?
Para nuestros datos desigualmente distribuidos, la interpolación lineal es la más honesta porque muestra los valores en una escala lineal y llama la atención inmediatamente sobre los valores atípicos. Pero tal vez no sea eso de lo que trata el artículo en el que colocamos el mapa. Tal vez queremos hablar de los patrones geográficos: las bajas tasas de desempleo en estados como Texas, Kansas y Nebraska, o el alto desempleo en el Cinturón Negro del Sur. Para mostrar estos patrones, necesitaríamos una interpolación diferente.
Cuantos más cortes añadamos para recuentos iguales (como cuartiles, quintiles o deciles), más utilizará nuestro mapa colores muy oscuros, aumentando el nivel general de contraste. Eso hace que resulte atractivo utilizar siempre los mapas con más cortes: Parece más dramático.
Pero también hace que nuestros lectores piensen que las diferencias son notables en zonas donde en realidad no lo son en absoluto y que son menos notables en zonas donde en realidad son muy notables. Para ilustrar esto, ampliemos el mapa de Deciles continuos:
Los azules de los condados con una tasa de paro del 23,5% ⬤ y del 9,9% ⬤ -¡una diferencia de 13,6 puntos porcentuales! – son muy similares. En cambio, la diferencia de color entre el 9,9% ⬤ y el 3,8% ⬤ es enorme. Las tasas de desempleo de esos dos condados sólo los separan 6,1 puntos porcentuales, pero parece que la diferencia es mayor que entre los dos primeros ⬤⬤.
Por otra parte, puede que la diferencia en los datos también parezca mayor. Las tasas de desempleo del 23,5% y del 10% parecen «altas», mientras que una tasa de desempleo del 4% parece «baja». La diferencia entre el 4% y el 10% puede ser más importante para algunos lectores que la diferencia entre el 10% y el 23,5%.
La elección de los colores para los mapas coropléticos es un gran ejemplo que demuestra que «todos los mapas son erróneos, pero algunos son útiles» (parafraseando a George Box). Es importante encontrar un buen compromiso entre llamar la atención sobre los hechos que se quieren resaltar y mostrar los datos de una manera que represente su distribución real (¡o percibida!).
Para jugar con la interpolación, pase el ratón por encima de uno de los mapas incrustados y haga clic en «Editar este gráfico» en la esquina superior derecha. Esto le llevará directamente al editor de Datawrapper, donde puede cambiar la interpolación en la pestaña «Refinar».
Traducido desde: datawrapper