¿Qué es EDA (Exploratory Data Analysis) en Data Science?

Tiempo de lectura: 5 minutos

El análisis de datos exploratorio (Exploratory Data Analysis o EDA) es una técnica de análisis de datos, que permite a los data scientists obtener una comprensión más profunda y matizada de los conjuntos de datos con los que trabajan en cualquier proyecto de machine learning.

En este artículo vamos a profundizar en los aspectos esenciales del EDA e iremos desde sus fundamentos hasta las técnicas más avanzadas, descubriendo las aplicaciones y estrategias más efectivas para aprovechar al máximo esta poderosa herramienta en el data science

Significado de EDA

 

El EDA Analysis o análisis exploratorio de datos es una técnica estadística que apunta a revelar estructuras subyacentes, identificar patrones o anomalías y cualquier indicio de relaciones clave que existan en un conjunto de datos o data set

El objetivo del EDA no es confirmar hipótesis sino que se centra en generar preguntas y sus posibles direcciones para las investigaciones futuras. 

Para entenderlo mejor: el EDA en el Data Science es el arte de hacer preguntas más que el de buscar respuestas específicas.

El EDA se centra en la curiosidad y la apertura mental, tratando de explorar los datos con una mente abierta, sin hipótesis preconcebidas. La aproximación se hace desde un entendimiento más profundo y holístico de los datos.

Al abordar el EDA con esta mentalidad, no solo descubrimos lo que buscamos, sino que a menudo nos encontramos con sorpresas que nos llevan por caminos inesperados. 

Y ahí reside el verdadero poder del EDA: abrir puertas a nuevas preguntas e hipótesis que de otro modo podrían haber permanecido ocultas.

Será pues gracias al análisis exploratorio de datos que podremos limpiar los datos, entender su estructura y preparar el terreno para análisis más profundos, asegurando que las conclusiones posteriores sean más sólidas y confiables.

¿Cómo funciona el EDA?

 

El análisis exploratorio de datos es un proceso flexible y dinámico, diseñado para maximizar el entendimiento de los conjuntos de datos. Pero no es un proceso lineal sino que se trata de un ciclo de curiosidad e investigación que nos puede llevar a través de varias fases de descubrimiento.

Para la elaboración de EDA utilizaremos lenguajes de programación como Python o R.

 

Fase inicial o Data Cleaning

 

La mayoría de EDA techniques comienzan con la carga y limpieza de datos, para asegurarse de que cualquier inconsistencia o dato faltante sea tratado adecuadamente. 

Aquí herramientas como los pandas en Python, que son bibliotecas de software diseñadas específicamente para manipular datos en tablas numéricas y series temporales —entre otros—, se vuelven indispensables.

Y esta fase será crucial, ya que los datos limpios y bien organizados son la base para cualquier análisis efectivo. 

Generación y refinamiento de preguntas

 

Una vez que tenemos los datos listos pasamos a la etapa más creativa para explorar nuestros datos con una mente abierta, preguntándonos sobre posibles relaciones, tendencias y anomalías

Cada gráfico que generamos y cada estadística descriptiva que calculamos nos lleva a nuevas preguntas, refinando y profundizando nuestro análisis. 

Cabe destacar que durante todo este proceso no avanzamos en una sola dirección, sino que nos movemos en espirales, volviendo sobre nuestros pasos con nuevos conocimientos y preguntas. 

Este ciclo de visualizar, transformar, modelar y luego visualizar nuevamente es la magia del EDA y lo que nos permite explorar los datos de una manera más exhaustiva. Con cada iteración, nuestro entendimiento de los datos se profundiza, y emergen insights más claros y detallados.

🤖 El análisis de datos y la inteligencia artificial, dos caras de la misma moneda

La inteligencia artificial está marcando un antes y un después en nuestras vidas, ya que sus aplicaciones son increíbles. 

Descubre qué es la inteligencia artificial

Técnicas y herramientas empleadas en EDA

 

Las técnicas gráficas son fundamentales en EDA y proporcionan una forma intuitiva y poderosa de identificar patrones, tendencias y anomalías al representar gráficamente los datos y sus relaciones. Entre las más comunes encontramos: 

 

  • Diagramas de caja: revelan la distribución de los datos, destacando medianas, cuartiles y valores atípicos. Excelentes para comparar distribuciones entre varios grupos.

 

  • Mapas de calor: empleados para visualizar la intensidad de los fenómenos a través de variaciones de color, perfectos para explorar correlaciones entre variables.

 

  • Histogramas: muestran la distribución de una variable numérica, ayudando a identificar la forma de la distribución (normal, sesgada, bimodal).

 

  • Gráficos lineales: adecuados para visualizar tendencias a lo largo del tiempo, mostrando cómo cambian los valores de una variable.

 

  • Pictogramas: transforman números en imágenes o iconos facilitando la comprensión de grandes cantidades de datos de manera amigable.

 

  • Diagramas de dispersión: exploran la relación entre dos variables numéricas, buscando patrones de correlación.

 

Pero aunque las visualizaciones son esenciales, las técnicas cuantitativas nos permiten profundizar aún más, proporcionando medidas concretas y pruebas estadísticas. Entre las más habituales encontramos: 

 

  • Estadísticas descriptivas: incluyen medidas de tendencia central (media, mediana, modo) y de dispersión (varianza, desviación estándar), ofreciendo un resumen numérico de los datos.

 

  • Análisis de correlación: Mide la relación entre dos variables, indicando la dirección y la fuerza de esta relación a través del coeficiente de correlación.

 

La elección de la técnica adecuada depende del tipo de datos con los que trabajamos y de las preguntas específicas que buscamos responder. Pero al combinar estas técnicas podremos obtener una comprensión detallada de nuestros datos, preparándonos para análisis más profundos o bien para la construcción de modelos predictivos.

Tipos de análisis EDA (univariado, bivariado y multivariado)

 

Dentro del EDA, el análisis puede clasificarse según el número de variables que se examinan simultáneamente. 

Cada uno de estos enfoques ofrece perspectivas únicas sobre los datos, ayudándonos a entender desde características individuales hasta complejas interacciones.

 

Análisis univariado

 

Este análisis se centra en una sola variable. Su objetivo es describir y resumir los datos de esa variable y encontrar patrones que sean de interés. 

Las técnicas más comunes en este análisis son histogramas para visualizar la distribución de los datos y boxplots para identificar valores atípicos y entender la dispersión y la tendencia central. También son comunes las estadísticas descriptivas como la media, mediana, moda, varianza y desviación estándar.

 

Análisis bivariado

 

El análisis bivariado examina dos variables para identificar relaciones y correlaciones entre ellas, pudiendo revelar cómo los cambios en una variable afectan a otra. 

Las técnicas más habituales son los diagramas de dispersión, que muestran cómo se relacionan las variables entre sí, los coeficientes de correlación (como el coeficiente de Pearson para medir la fuerza y la dirección de la relación) y las tablas de contingencia.

 

Análisis multivariado

 

El multivariate analysis va un paso más allá y explora simultáneamente tres o más variables para identificar patrones y relaciones complejas. 

Este tipo de análisis puede incluir PCA (análisis de componentes principales) para reducir la dimensionalidad de los datos, análisis de conglomerados (Clustering) y modelos de regresión múltiple.

En esta guía hemos visto cómo el EDA no es solo un paso preliminar en el análisis de datos, sino una filosofía completa que aboga por la curiosidad, la apertura mental y la exploración sin prejuicios

Y si quieres conocerla más a fondo, no dudes en consultar este máster de Data Science donde también podrás aprender sobre este proceso iterativo y flexible que te permitirá no solo comprender los datos sino descubrir resultados inesperados que guiarán la dirección de tus futuras investigaciones y decisiones. ¡Te esperamos!

Shirly Nowak
Shirly Nowak es una experimentada Project Manager y Copywriter, con más de 5 años de trayectoria, en los que ha podido trabajar en proyectos de diferentes sectores.