#Dataviz ¿Cómo crear mejores visualizaciones de datos?

dataviz-bestpractices

La visualización de datos (lo que conocemos como dataviz) juega un papel fundamental dentro del ciclo de vida del análisis de datos, si bien es cierto que todas las fases del análisis son equiparables en importancia. Tenemos dos razones o motivos principales por los cuales vamos a tener que apoyarnos en gráficos o plots a lo largo de nuestro proceso:

1 – Análisis Exploratorio. Visualizaciones mediante las cuales vamos a buscar insights, revisar la calidad del dato o la completitud del mismo. Estas visualizaciones no tienen que ser perfectas. El data analyst utiliza gráficos para dar respuestas y ahondar en la perspectiva del escenario inicial sobre los datos en bruto, confirmar/reformular hipótesis, enriquecer el análisis o enfocarlo desde distintos prismas. Por lo tanto, no es necesario que estas visualizaciones sean estéticamente atractivas.

2 – Análisis Explicativo. Presentamos conclusiones o resultados, por lo que estas visualizaciones tienen que servir de apoyo de cara a convencer al interlocutor en nuestra exposición sobre el trabajo realizado y nuestro mensaje. En este caso las visualizaciones deben mostrar nuestras conclusiones o insights de manera clara, ser visualmente potentes y precisas.

En la etapa de EDA (Exploratory Data Analysis), y de cara a realizar tareas de data cleansing o exploración, utilizaremos visualizaciones definidas en el punto 1; en la presentación de resultados desarrollaremos gráficos explicativos y en una fase intermedia de análisis puro utilizaremos tanto visualizaciones exploratorias como explicativas.

Antes de continuar…

Tenemos dos pilares fundamentales sobre los que considerar si nuestras visualizaciones son buenas o no; aunque parezca evidente no tenemos que perder de nuestro radar estas dos premisas:

  • Los gráficos deben transmitir el mensaje deseado.
  • La información mostrada en las visualizaciones no debe ser engañosa.

Los que nos dedicamos a esta importante labor en el mundo de los datos, debemos que ser rigurosos, objetivos y honestos a la hora de mostrar nuestra información. Por ejemplo, mostrar resultados a través de áreas (2D) o volúmenes (en el caso de los 3D) de un pie chart puede resultar engañoso:

En este caso, mostrar la información en un pie-chart en 3D, con múltiples categorías y ordenado manualmente no ayuda a la transparencia del mensaje que queremos dar.

Tipología de variables

Dependiendo de las variables a analizar, optaremos por un tipo de visualización u otro. Se distinguen dos tipos de variables:

Cualitativo o categórico (no numérico)

Datos nominales: etiquetas sin orden inherente; ninguna etiqueta es intrínsecamente mayor o menor que cualquier otra. País (Finlandia, Israel, Belice..), Sexo (Mujer u Hombre) o Profesión (Maestro, Alfarero, Ingeniero…) serían ejemplos de datos nominales.

Datos cardinales: etiquetas con orden o clasificación intrínseca; se pueden realizar operaciones de comparación entre valores, pero la magnitud de las diferencias no está bien definida. Un ejemplo sería una escala de satisfacción: Muy Insatisfecho – Insatisfecho – Neutral – Satisfecho – Muy Satisfecho

Cuantitativo (numérico)

Datos de intervalo: valores numéricos donde las diferencias absolutas son significativas (se pueden realizar operaciones de suma y resta).

Datos de relación: valores numéricos donde las diferencias relativas son significativas (se pueden realizar operaciones de multiplicación y división)

Todas las variables de tipo cuantitativo a su vez se dividen en dos tipologías: discretas y continuas.

Variables discretas
Las variables cuantitativas discretas solamente pueden tomar valores específicos establecidos en un nivel máximo de precisión. Por ejemplo: Cantidad de mascotas que tiene una persona: 2, 5, 6 o más.

Variables continuas
Las variables cuantitativas continuas pueden (hipotéticamente) tomar valores a cualquier nivel de precisión; pueden haber otros valores en medio de dos valores (valores decimales). Ejemplo: la estatura de una persona (1.72m, 1.719m, 1.7186m…).

Formato: ¿Cómo debe ser mi gráfico?

Independientemente de los datos que vayamos a representar, hay una serie de criterios mínimos a tener en cuenta a la hora de representar nuestras variables en un gráfico.

  • Evitar líneas gruesas en los ejes.
  • No añadir texto innecesario.
  • Visualización limpia: sin fondos/imágenes.
  • No utilizar efecto 3D.
  • Formato de los ejes sobrio.

En definitiva: menos es más.

Fuente: Udacity

Colores

En nuestras visualizaciones, utilizaremos colores únicamente cuando nos aporten valor añadido a nuestro análisis y siempre mediante colores suaves.

En el par de gráficos superior, el color por categoría no aporta valor ni información ni valor extra a la visualización. Se ha de evitar el uso de una paleta de colores sustituyendo por un solo color.

En los scatter plots superiores se relacionan dos variables; la longitud y la anchura del sépalo de una flor. El hecho de añadir color categorizando por tipo de especie (gráfico derecho) en este caso sí nos aporta información relevante en nuestro análisis.

¿Cómo debo representar las variables de mi análisis?

Dependiendo de querer representar o analizar una, dos o más variables en mis gráficos, existirán planteamientos distintos. A continuación vamos a exponer ejemplos sobre alguna de las casuísticas que se nos pudiesen dar a lo largo de nuestro análisis

Una variable

Para visualizar una variable podemos optar por las siguientes tipologías de gráficos:

Gráfico de barras
Los barplots se utilizan para representar la distribución de una variable categórica. En un gráfico de barras, cada nivel o valor de la variable categórica se representa con una barra cuya altura indica la frecuencia de los puntos de datos de la categoría a la que pertenece.

Histogramas
Los histogramas se utilizan para analizar la distribución de una variable numérica. Son la versión cuantitativa del gráfico de barras; en lugar de trazar una barra por cada valor categórico, los valores se agrupan mediante rangos numéricos o bins.

Pie charts
Pese a ser utilizados muy habitualmente y ser una de las fórmulas preferidas a la hora de visualizar datos/mostrar resultados, tenemos que tener cuidado con el uso de este tipo de visualizaciones. Enumeramos 3 motivos por los cuales no deberíamos utilizar pie-charts o ring-charts:

1. Áreas: ¿A > B ó B >A?

Los humanos no somos linces diferenciando áreas/volúmenes desde un punto visual. Si tenemos categorías cuyos valores son parecidos, no vamos a poder distinguirlo con claridad a través de un pie-chart. El best practice para graficar variables categóricas son los bar charts ordenando de mayor a menor (o viceversa) las categorías en función de su variable numérica asociada:

¡B > A! Lo vemos mucho más claro, ¿verdad? 🙂

2. Categorización: ¿Cuántas categorías puedo incluir en mi pie-chart? Observa el siguiente plot:

¿Distingues algo entre tal maremágnum de slices? Efectivamente, NO. Si optamos por utilizar un pie chart, como mucho debe incluir 2-3 categorías.

3. Pie chart + 3D: ¿Los puedo utilizar? ¿En qué casos? No. Nunca. Los 3D y su perspectiva falsean las áreas/volúmenes que, ya de por sí, como hemos visto en el primer punto, nuestro ojo humano no diferencia de una manera sencilla/natural en 2D:

Dos variables

En el caso de querer visualizar dos variables, podemos optar por las siguientes gráficos tipo:

Scatterplots
Un diagrama de dispersión es una visualización de datos bidimensionales que utiliza puntos para representar los valores obtenidos de dos variables diferentes: una representada a lo largo del eje x y la otra representada a lo largo del eje y. Mediante esta visualización podremos chequear la correlación entre dos variables.

Vemos en la matriz anterior que las variables price y carat tienen una correlación mayor que el resto de variables.

Boxplots
Mediante este tipo de visualización podremos analizar grupos de datos numéricos a través de sus cuartiles, obteniendo una visión de la simetría de la distribución de datos, del IQR, la detección de outliers, y de la representación gráfica de estadística descriptiva como mediana, percentiles 25 y 75, máximos o mínimos.

Violinplot
Representación de los datos en bruto de una variable numérica. A mayor densidad de puntos en un determinado rango numérico, mayor amplitud. Mediante este tipo de visualización tenemos una mayor comprensión de nuestra distribución de datos, asimetría y curtosis.

Swarmplot
Nos proporciona una foto más concreta de cómo se distribuyen los puntos, eliminando las largas “colas” que existentes en los violin plots (gráfico inferior derecho).

Clustered barcharts
Podemos añadir una variable más a nuestro gráfico de barras mediante el cual podremos ver una comparativa categórica a varios niveles.

Heatmaps
Mediante los cuales vamos a poder identificar, por ejemplo, el papel de una variable cuantitativa frente a dos categóricas. El siguiente ejemplo representa el uso de un sistema de bike sharing a lo largo de los días de la semana (eje x) y las horas del día (eje y). El tono más oscuro de las celdas indica un mayor uso por parte de los usuarios. De este gráfico se desprende que los usuarios utilizan el servicio en mucha mayor proporción para desplazarse al trabajo por las mañanas (6AM – 9AM) y para volver a sus casas(4PM-6PM) una vez finalizada la jornada laboral de lunes a viernes.

Análisis multivariable
Llegados a este punto, es posible que queramos ir más allá y profundizar en nuestro análisis y el comportamiento de las variables. El análisis es un juego: un proceso iterativo e intuitivo en el que iremos profundizando a medida que obtengamos insights o nos planteemos más preguntas según avancemos en el conocimiento del dato y su contexto. En el siguiente ejemplo, dividimos un análisis bidimensional (price y carat), dividido por la variable cut y analizado en forma de heatmap.

Espero que este repaso a buenas prácticas sobre qué tipo de representación visual es más adecuada en cada momento y qué características mínimas debería tener para aportar valor, te haya resultado útil. Para cualquier duda, comentarios 🙂

Imagen: unsplash | @rayhands

Data Analyst en Keepler. “Ingeniero apasionado de los datos y el BI. Como Data Analyst, la parte que más me gusta de mi trabajo es poder encontrar la mejor forma de analizar y mostrar la información. En los proyectos de los que formo parte, considero indispensable formar un equipo basado en la confianza y la buena comunicación entre los especialistas en las distintas áreas”

Port Relacionados

¿Qué opinas?

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.