En 2017, Ed Hawkins, climatólogo del Centro Nacional de Ciencia Atmosférica, creó una de las visualizaciones de series temporales más populares del momento al representar de una forma minimalista los cambios que ha sufrido la temperatura media global anual para todo el histórico disponible (1850 – actualidad), tal y como se puede ver en la figura que encabeza este artículo. La idea era ver de una forma clara y concisa información procedente de cientos de datos y sacar la conclusión, más que evidente, de que la temperatura media global se ha ido incrementando progresivamente

El 21 de junio de 2019 se popularizó esta representación mediante el lanzamiento de la web showyourstripes.info, en donde mediante un sencillo buscador se puede consultar y descargar dichas representaciones hasta un nivel de definición de país. Por ejemplo, en la Figura 1 se muestra los cambios de la temperatura media de España desde principios del siglo XX hasta el año 2020. La industria del merchandising aprovechó el boom y creó todo tipo de productos empleando como imagen las barras de temperaturas de diferentes países o ciudades.

Figura 1. #ShowYourStripes España. Fuente: showyourstripes.info

Series temporales

Una serie temporal no es más que un conjunto de datos ordenados cronológicamente cuya representación permite observar tendencias, estacionalidad y anomalías, como se puede ver en la Figura 2, en donde está representada la evolución a lo largo del tiempo del cambio de dólares a euros.

Figura 2. Evolución del cambio de dólares a euros. Fuente: https://www.highcharts.com

Las series temporales están presentes en prácticamente todas las áreas de investigación y todos los ámbitos de la sociedad. Es muy común monitorizar datos asociados a un paso de tiempo para su posterior análisis y previsión. Sin ir más lejos, desde hace un año estamos muy acostumbrados, por desgracia, a ver a diario las series temporales de datos relacionados con la COVID-19. De hecho, desde el inicio de la pandemia, el público no acostumbrado a extraer conclusiones a partir de gráficos se ha ido familiarizando con ellos.

Visualizando una pandemia

El 19 de marzo de 2020 se viralizó el artículo Coronavirus: The Hammer and the Dance (continuación de una primera parte llamada Why You Must Act Now). Con más de 100K likes en Medium y medio millar de comentarios, Tomás Pueyo expuso en unos cuantos gráficos algunos escenarios posibles a los que nos veríamos abocados si no tomábamos medidas (o sí) de cara a frenar la expansión de la pandemia. Consiguió sintetizar las distintas series temporales de una forma muy clara para el gran público, ejemplo que posteriormente tomaron grandes medios de comunicación para ir monitorizando la evolución de la pandemia. 

El primer gráfico que empleó para lanzar los dos mensajes principales del artículo lo hemos recogido en la Figura 3. Rompiendo varias “reglas” de la representación de datos, eliminó valores del eje y, hizo lo que quiso con el eje temporal x, y de paso pintó ambos ejes con un color gris claro para que la relevancia que normalmente tienen pasara a un segundo plano. Así las curvas son las que captan la atención del lector sin importar demasiado los valores exactos que toman en un determinado instante de tiempo (¿acaso alguien sabía en aquellas fechas cuántos casos iba a haber dentro de 3 o 4 semanas?). Además, al evitar el uso de valores en el eje y consiguió generalizar el gráfico para cualquier país.

Figura 3. El martillo y la danza. Fuente: Tomás Pueyo. Medium.

Los dos mensajes que se extraen de la representación son: 

  1. ¿Qué pasaría si no tomamos medidas o las tomamos de forma superficial? Color negro y rojo, asociados a error o peligro. No nos gustaría estar en esa situación.
  2. ¿Y si tomamos medidas fuertes y golpeamos al virus? Esa es la curva verde (color asociado a lo correcto, la situación a la que nos gustaría llegar). Vemos en una primera parte de la serie que el número de casos de coronavirus alcanza el máximo durante el “martillazo” – que corresponde a un confinamiento duro – para posteriormente ir disminuyendo hasta una situación denominada “The Dance” – la danza –, en donde tendremos que ir bailando con el virus para evitar que se dispare y venga una segunda ola, y luego una tercera, y después…

El ejemplo visto es un caso típico de representación de series temporales con líneas, aunque en esa figura en cuestión el autor ha sido bastante avispado como para ofrecer al lector exactamente el mensaje que quiere transmitir sin que éste tenga que dar demasiadas vueltas a los datos. Sin embargo, durante la primera parte de la pandemia, sobre todo durante el confinamiento estricto, los grandes medios de comunicación empezaron a mover la maquinaria para sacar cada vez más gráficos sobre la evolución de la pandemia. Algunos generaban ruido porque no había quien entendiera nada a partir de ellos, pero otros, como el The New York Times o El País, monitorizaron la pandemia y continúan  haciéndolo explorando nuevas formas de hacer fácil lo difícil mediante visualizaciones claras. Un ejemplo es el mostrado en la Figura 4. Se trata de una gráfica recortada del The New York Times (la original muestra los datos para todos los estados de EEUU) en la que podemos distinguir tres partes de izquierda a derecha: 

  1. Región y rango temporal. 
  2. Datos agregados de muertes por COVID-19 y nº total de exceso de muertes para todo el rango temporal. Es decir, en el caso de EEUU entre el 15 de marzo de 2020 y el 30 de enero de 2021 se reportaron 439375 muertes por COVID-19, mientras que para ese mismo periodo hubo un exceso de muertes frente a una situación “normal” (dato calculado a partir de un histórico que se puede consultar en la fuente original) de 512900. Además se indica el porcentaje que supone ese exceso de muertes sobre lo normal de otros años.  
  3. Serie temporal del exceso de muertes usando un gráfico de área que nos permite observar tendencias y comparar los excesos de muertes a lo largo del periodo de análisis. Así concluímos que en marzo se encuentra el máximo global, mientras que se dieron un par de máximos locales en agosto y finales de diciembre, coincidiendo con la segunda y tercera ola. 

Figura 4. Muertes semanales sobre/bajo la normal. Fuente: The New York Times. Gráfico completo.

La Figura 4 es sólo un ejemplo de cómo sintetizar grandes cantidades de datos que evolucionan con el tiempo procedentes de diversas fuentes con el objetivo de que el lector saque sus propias conclusiones. La idea, en este caso, es facilitar la comprensión de los datos. En cambio, en otras ocasiones, tal y como comentamos en el gráfico de la Figura 3, el autor quiere guiar al lector a una conclusión. 

Logaritmos en prime time 

A las pocas semanas del inicio de la pandemia en Europa, comenzamos a ver que algunos medios de comunicación mostraban la evolución de los nuevos casos de coronavirus en escala logarítmica. Me llamó la atención porque fueron varias las personas que me preguntaron qué era un logaritmo y por qué había que usar la escala logarítmica para representar la evolución de una pandemia. No obstante, se habían quedado con la copla de que lo importante era que en escala logarítmica se podía ver mejor si el ritmo de crecimiento de los nuevos casos se ralentizaba, se estancaba y progresivamente iba disminuyendo.

Figura 5. Positivos, muertes y recuperados por la COVID-19. Fuente: Elaboración propia

En la Figura 5 se muestra un ejemplo de gráfico de la evolución de los casos, muertes y recuperados durante los primeros dos meses desde que se detectaron los 100 primeros casos de coronavirus en España. Es la famosa curva que tantas veces vimos durante los meses más duros de la pandemia y con la que aprendimos que lo importante era  “aplanar la curva”. En la gráfica de la izquierda están representados los datos en escala lineal y en la de la derecha en escala logarítmica (eje y) y lineal (eje x). Si nos fijamos bien, los datos del eje y en escala lineal están equiespaciados, mientras que los de la gráfica en escala logarítmica no. Como el ritmo de crecimiento de nuevos casos en todas las pandemias es muy rápido durante las primeras fases, la mejor manera de visualizar los datos es mediante este tipo de escala. Se suelen emplear cuando el rango de valores que toman los datos es muy amplio. Este ejemplo, además, nos sirve para señalar que si la curva de la gráfica de la derecha se va aplanando, significa que el ritmo de crecimiento de contagios (línea roja) se está ralentizando; si es plana (paralela al eje x), nos indica que día tras día el número de contagios es el mismo. Y si empieza a decrecer es que cada registro diario de nuevos casos es inferior al del día anterior. 

Estas conclusiones no son tan evidentes si empleamos el gráfico de la izquierda. De hecho, es complicado sacar una conclusión acerca del ritmo de crecimiento de la pandemia observando únicamente la curva roja de la gráfica de la izquierda, mientras que si empleamos la escala logarítmica se ve claramente que se está estabilizando.

Más allá de las líneas

Las series temporales se suelen representar en gráficos de dos dimensiones, en donde el eje horizontal, tal y como hemos visto anteriormente, representa la escala temporal y el eje vertical el valor asociado a cada paso de tiempo. Sin embargo, dependiendo del problema al que nos enfrentemos, la forma de visualización no tiene por qué ser la idónea para el objetivo que se persigue. 

Con la idea en mente de que una serie temporal es un conjunto de valores asociados a momentos en el tiempo, hay representaciones que van más allá de las líneas porque el mensaje que se quiere transmitir está mejor dirigido evitando el uso de líneas. Por ejemplo, continuando con el caso que se expuso al inicio, en la Figura 6 está representada la serie temporal de la desviación de la temperatura media global con respecto a la media 1850-1900. Los datos son prácticamente los mismos que los empleados para crear la figura que encabeza este artículo, pero llegan a un nivel temporal mensual. Se podría haber optado por representar los datos con una única línea (eje x tiempo, eje y anomalía de la temperatura), pero esta representación es más llamativa, capta mejor la información y, lo que es más importante, facilita al lector la extracción de conclusiones. 

Figura 6. Anomalía de la temperatura media global. Fuente: @neilkaye

Más sofisticada aún, aunque menos útil ya que no puede ser impresa, es la visualización de esta misma serie representada de dos formas distintas en la Figura 7. Este tipo de figuras, al igual que sucede con la Figura 6, parten de un mensaje basado en una conclusión previa que ya se ha mencionado anteriormente: el cambio en la temperatura media global se ha ido incrementando durante los últimos 100 años. Así pues, estas representaciones buscan lanzar un mensaje claro que el autor ya ha obtenido mediante un análisis previo en el que  otro tipo de visualizaciones basadas en líneas son más adecuadas

Figura 7. Anomalía de la temperatura media global. Fuente: https://www.climate-lab-book.ac.uk/

Por último, volviendo a la serie temporal que nos lleva persiguiendo un año, el pasado febrero, el periódico The New York Times sacó en portada una representación de una serie temporal que rompe con los estándares habituales. En la Figura 8 vemos cómo en vez de representar el número de fallecidos por la COVID-19 a lo largo del tiempo empleando una línea (eje x tiempo, eje y número de fallecidos), decidieron jugar con la visualización y pintar cada fallecido con un punto. En este gráfico cada región comprendida entre dos líneas rojas contiene 50000 puntos. Además, estas líneas están separadas en función del número de días que transcurrieron hasta alcanzar el siguiente grupo de 50000 fallecidos. De esta manera podemos ver zonas de mayor y menor densidad, intuir cuándo el ritmo de fallecimientos se ha incrementando y, al usar puntos, tratar de transmitir lo que muchos gráficos no pueden: un punto es un fallecido.

Figura 8. Portada del The New York Times. Fuente: The New York Times.

Este último caso de visualización de series temporales es quizá uno de los más originales a la hora de escoger qué representación transmite mejor el mensaje que el autor desea trasladar a la audiencia. Además, se trata de un buen ejemplo de hacia dónde debería enfocarse el periodismo centrado en datos. Explorar nuevas formas de comunicar un mensaje mediante gráficos no es una tarea sencilla ni mucho menos banal, sobre todo teniendo en cuenta que vivimos en tiempos en los que la información se consume de forma muy visual. Buscar la mejor representación, no solo en el ámbito de la información sino en cualquier área, debe pasar por una fase previa en la que el autor se pregunte qué quiere decir para posteriormente decidir cuál es la mejor manera de transmitirlo. 

Author

  • Diego Duque

    Data Analyst en Keepler. "I have a PhD in theoretical physics with a tendency towards generalist knowledge. This concern for learning has led me to work in different areas related to data, thus achieving a complete vision of the projects in which I work. Currently I am very interested in developing products in the cloud to streamline and improve decision making."