Volver

Consejos para la exploración visual de los datos

Por Jordi Rosell
En el análisis de datos es muy importante visualizar los datos que hemos recopilado antes de poder llegar a conclusiones.

Una tabla con datos tendrá unas columnas con distintas variables con textos y números. Cada una de las filas de la tabla representa un dato específico que se ha recopilado.

¿Como podemos visualizar las columnas con números?

Si queremos visualizar la distribución de datos de una variable numérica podemos usar un histograma. En eje X tendremos distintos rangos de valores de la variable y en el eje Y tendremos el número de ocurrencias o la frecuencia de las ocurrencias (un porcentaje sobre el total).

Un diagrama de caja facilita la representación visual de 5 valores en estadística descriptiva:

  • La mediana parte los datos por la mitad con una línea en el medio. El 50% de los datos en un lado y el otro 50% en otro.
  • La caja visualiza la variabilidad de los datos indicando dónde quedan el 25% (Q1) y el 75% (Q3) de los datos.
  • La caja (IQR) sería el cuerpo del diagrama y los “bigotes” serían las manos que intentan llegar al resto de los datos. Si los datos quedan por debajo (Q1 – 1.5×IQR) o por encima (Q3 + 1.5×IQR) de los “bigotes”, se visualizan con puntos que identifican datos atípicos que parecen inusualmente lejos del resto de datos.

Cuando queremos ver la evolución temporal de una variable numérica podemos mostrar un gráfico de líneas con las fechas en el eje X y los valores de la variable en el eje Y.

Un valor numérico se puede visualizar con una intensidad de color. Un ejemplo de ellos son las visualizaciones de mapas geográficos.

Si queremos relacionar 2 columnas numéricas, podemos usar un diagrama de dispersión. En el eje X y en el eje Y tendremos los datos de una columna o de otra.

Los gráficos de burbuja nos permiten mostrar tres dimensiones de datos en un gráfico de dos dimensiones. El gráfico de burbuja es una variación del gráfico de dispersión en donde los puntos son reemplazados por burbujas. Las burbujas se grafican de acuerdo a los valores de X y de Y mientras que su tamaño será proporcional al tercer valor.

En la práctica es importante clarificar y preguntar sobre la naturaleza de los datos

¿Como podemos visualizar las columnas con categorizaciones?

Para poder visualizar categorizaciones es necesario preparar los datos con tablas de frecuencias o con tablas de contingencia.

Un gráfico circular o un gráfico de anillos no es aconsejable si tienes que comparar los datos. Es complicado diferenciar cuando hay diferencias pequeñas y muchas categorías.

Un gráfico de columnas consiste en la visualización de una tabla de frecuencias de las distintas categorizaciones. Son similares a los histogramas pero en vez de tener números en el eje X tendremos las distintas categorías. Podemos tener un gráfico de barras horizontales si ponemos las categorías en el eje Y y los valores de la variable proyectados en el eje X.

Cuando tenemos 2 columnas con distintas categorías, un gráfico de barras segmentado nos ayuda a visualizar las ocurrencias segmentadas de distintas de categorías.

¿Qué significa esto en la práctica?

En la práctica es importante clarificar y preguntar sobre la naturaleza de los datos y asegurarse que hay un entendimiento común. Por ejemplo, documentar lo que significan cada uno de los distintos valores de las distintas columnas.