Visualización de datos. Parte (II), cuestión de formas

Después de una primera entrega, en la que vimos una primera aproximación a la historia y conceptos fundamentales de la visualización de datos, vamos a seguir con una serie de artículos en los que intentaremos dar una serie de consejos y mejores prácticas en la aplicación de elementos visuales, para que podamos sacar el máximo partido de nuestros análisis.

Con el objetivo de contar con una visualización que se ajuste a la representación de las relaciones, tendencias, entre muchos valores distintos, las distintas plataformas analíticas ponen a nuestra disposición una variedad de elementos gráficos que, utilizados con cierta pericia, van a permitir que aquellos que utilicen nuestros informes y cuadros de mando, puedan analizar estos datos de un vistazo. Siguiendo una serie de pautas o “recetas”, vamos a poder realizar esta selección de elementos de una forma mucho más ágil, y abandonar las representaciones inconsistentes, o que presentan menos valor, así como comenzar a perder el miedo al “lienzo en blanco” al que nos enfrentamos cuando tenemos que analizar una nueva medida o dimensión dentro de nuestros proyectos.

La elección de una visualización para representar el análisis de datos es, como reza nuestro título, y en buena medida, cuestión de formas

Antes de comenzar con esta serie de recomendaciones, basadas en distintas situaciones y propósitos a los que nos podemos enfrentar, veamos un ejemplo que evidencia que la elección de una visualización para representar el análisis de datos es, como reza nuestro título, y en buena medida, cuestión de formas. Vamos a pensar, por ejemplo, en el análisis del desempeño de una determinada actividad a lo largo de los meses, pueden ser número de ciudadanos atendidos, importes de subvenciones ejecutadas… en nuestro caso anotaciones de salida registradas a lo largo de los citados meses. Veamos su representación con idénticos datos, en los siguientes gráficos:

Anotaciones de salida registradas

En el primero de los gráficos afrontamos la comparación de esta ejecución a lo largo de los meses a través de un gráfico de tarta. Con esta visualización podemos ver el pese específico de cada mes con respecto al resto y al total, pero, como se hace evidente, nos resulta complejo evidenciar una tendencia al no contar con una representación del curso del tiempo (cuando contamos con una dimensión que sucede a lo largo del tiempo, necesitamos de algún elemento gráfico que represente ese eje temporal). Prácticamente lo mismo podemos decir del gráfico de bloques posterior, también confuso para nuestra necesidad. Si avanzamos, el gráfico de barras, con el eje x representando la dimensión mes de registro, y las columnas representando la medida conteo de anotaciones registradas, nos ayuda a representar fielmente los valores de cada uno de los meses, compararlos rápidamente entre sí, y, además, poder confirmar cuál es la tendencia durante el ejercicio de representación.

Así pues, vemos, a través de un ejemplo muy sencillo, lo importante que es dar con la representación adecuada en cada caso. Y no siempre las situaciones a las que nos enfrentamos son tan sencillas como la que hemos utilizado como introducción.

De cara a facilitar su selección, se han escrito numerosas guías y métodos, siendo quizás el más conocido el diagrama de selección de gráficos que el Dr. Andrew Abela creó como parte de su método global de representación (Extreme Presentation). Basándonos, y adaptando en parte para adecuarlo para adecuarlo a nuevos elementos gráficos ya en uso, vamos a desengranar una pequeña guía de selección de estos elementos según el escenario de representación al que nos enfrentemos.

El primer paso para la selección del elemento adecuado pasa por identificar cuál es el propósito principal de la representación que pretendemos obtener. Para ello debemos contestar a una sencilla, aunque a veces no tanto, pregunta acerca de qué queremos representar con los datos. En el citado método, como en otras adaptaciones del mismo, se identifican a través de varias agrupaciones principales.

El primer paso para la selección del elemento adecuado pasa por identificar cuál es el propósito principal de la representación que pretendemos obtener

Comparación, es habitual que nuestros análisis precisen de comparar magnitudes entre sí para poder encontrar fácilmente los valores más altos, y los más bajos, identificar valores medios etc. Así podemos necesitar ver qué usuarios tienen una carga de trabajo asignada superior, aquellos que están desempeñando un tiempo medio de resolución, equipos que atienden un número superior de ciudadanos por día….

También podemos querer comparar estas magnitudes a lo largo del tiempo, comparando valores antiguos con otros más modernos, comparando ejercicios, meses, revisando tendencias. Como hemos visto en el primero de los ejemplos, y aun tratándose de un propósito común de comparación, la inclusión de dimensiones temporales hará que tengamos que adecuar el tipo de gráfico a utilizar.

Comparación

Relación, este tipo de gráficos nos van a permitir ver cómo se relacionan los valores, medidas entre sí permitiéndonos así encontrar correlaciones, valores típicos, así como identificar “clústeres” (grupos de elementos de una dimensión que comparten comportamientos en los valores/medidas equiparables) de datos.

En los gráficos de relación los ejes son propiamente las escalas de las medidas que se confrontan, y se representa un elemento por cada valor de las dimensiones de análisis. De cara a poder comparar hasta tres medidas al mismo tiempo, se juega con el tamaño de cada uno de estos puntos (en este caso se habla habitualmente de gráfico de burbujas).

Escalas de medidas

Composición, cuando necesitamos analizar cómo se componen lo elementos que constituyen un valor total, utilizaremos este tipo de gráficos. Necesitamos ver porcentaje de notificaciones en papel y en formato electrónico, ver cómo se distribuyen el número de expedientes asignados por cada usuario de nuestro equipo… Además, podemos también necesitar representar cómo evoluciona esta composición a lo largo del tiempo.

Así pues, contaremos con gráficos de carácter estático, en el que no incluiremos necesariamente una dimensión temporal, como pueden ser el gráfico de tarta, el gráfico de cascada o el de bloques. En el caso de que queramos analizar cambios a lo largo del tiempo podremos apoyarnos en gráficos de barras o de líneas, en los que apilemos los distintos valores de composición para cada periodo.

Los gráficos de composición, según precisemos, pueden representar estas composiciones en porcentaje, o bien en valores absolutos que conformen el valor absoluto total.

Gráficos de composición

Distribución, con estos gráficos vamos a poder explorar cómo se distribuyen los valores/medidas dentro de nuestros datos. Muestran por tanto las formas de estos datos, rangos de valores que alcanzan, así como la identificación de posibles valores atípicos.

A través de histogramas, gráficos de dispersión y diagramas de distribución seremos capaces de ver el comportamiento habitual de nuestra información, así como localizar elementos discordantes dentro del set de datos con el que estemos trabajando.

Rendimiento, o desempeño según donde consultemos. Vamos a utilizarlos cuando queramos una visualización rápida de los valores asociados a nuestras medidas. De esta forma habilitamos un camino “rápido” para que el usuario analista pueda verificar si los datos resultados se encuentran dentro de lo esperado, utilizándolos como “punto de entrada” para la utilización del resto de gráficos que hemos venido comentando.

Elementos totalizadores como el KPI (key performace indicator, como texto resaltado como totalizador), los indicadores o velocímetros, nos van a servir para ver de forma rápida cómo estamos trabajando en una determinada área, incluso comparando sus valores con algún tipo de umbral u objetivo.

Detalle datos, no debemos olvidarnos en todo caso, que, como parte de una posible representación gráfica, contamos con los datos en formato tabla. En ocasiones necesitamos valores exactos, o bien queremos obtener el máximo nivel de detalle o un registro concreto.

Geográfico, cada vez la dimensión geográfica, gracias a que contamos cada vez más con información georreferenciada, han pasado a formar parte del catálogo indispensable de los generadores de contenido analítico.

Pudiendo representar la información en distintas capas que pueden solaparse, o bien ir apareciendo conforme vamos navegando por el mismo, son toda un área de análisis en sí mismos y serán objeto de una visión detallada en futuras publicaciones.

Como hemos visto contamos con una amplia “paleta” de elementos analíticos que podemos utilizar en nuestros estudios de datos, y en ocasiones su elección y utilización puede generarnos dudas. Siguiendo e identificando el propósito de lo que queremos representar y analizar, esta tarea se simplifica, máxime si podemos apoyarnos en esquemas de elementos gráficos como los que hemos presentado y que seguro servirán de guía en el desarrollo de estas soluciones analíticas.

Aun así, contamos con elementos adicionales al tipo de gráfico que vamos a utilizar para cada combinación de dimensión o medida

Existen tipos de gráficos adicionales, pero siempre podemos encuadrarlos en mayor o menos medida en alguna de las categorías comentadas, de manera que se facilite también su utilización.

Una vez que contemos con la pericia de utilizar este tipo de esquemas en nuestro día a día, “mantener las formas” en nuestros proyectos de visualización de datos se simplificará y será mucho más rápido. Aun así, contamos con elementos adicionales al tipo de gráfico que vamos a utilizar para cada combinación de dimensión o medida, como lo son el color (que nos va a dar profundidad a nuestras representaciones y análisis) y la propia disposición de estos elementos para que potencien la información combinándolos. Serán objeto de siguientes artículos de visualización de datos, todo con el objetivo de que no sea necesario ser “un Charles Minard” para dar con la visualización adecuada.

Compartir: