La causalidad en la estadística: definición y ejemplos

¿Quieres explorar más? 📂 Explorar Categorías 🔥 Tendencias 🎓 Cursos

La causalidad estadística no es solo ver que dos cosas ocurren juntas (eso es correlación). La causalidad implica que un cambio en un factor (causa) produce directamente un cambio en otro (efecto). Demostrarla requiere experimentos controlados o modelos muy rigurosos, porque el simple hecho de que los piratas disminuyan y la temperatura global suba no significa que los piratas enfriaran el planeta. Quédate y entenderás por qué este es el concepto más malinterpretado —y más valioso— del análisis de datos.

Imagina que eres un analista de datos en una gran empresa de comercio electrónico. Observas un patrón fascinante: cada vez que los usuarios reciben una notificación push en su móvil, el gasto promedio en la plataforma aumenta un 18% en las siguientes dos horas. La correlación es evidente e impecable. La junta directiva te pide una recomendación urgente: ¿deberían bombardear a todos los usuarios con el doble de notificaciones para disparar los ingresos?

Tu respuesta a esa pregunta marcará la diferencia entre un profesional que entiende el alma de los datos y uno que solo persigue sombras numéricas. Porque el gasto y las notificaciones se mueven juntos, sí, pero ¿realmente la notificación causa la compra, o hay un tercer elemento invisible que desencadena ambos fenómenos? Quizá esos usuarios ya tenían la app abierta y estaban a punto de comprar cuando, por el mismo motivo, recibieron la notificación. Quizá la notificación se envía justo cuando el algoritmo predictivo detecta una alta intención de compra.

Este escenario, repetido en finanzas, medicina, sociología y cualquier campo que maneje datos, encierra la pregunta más ambiciosa de la estadística aplicada: ¿cómo podemos afirmar que A causa B? A lo largo de este artículo desmantelaremos las definiciones simplistas, recorreremos las condiciones filosóficas y matemáticas que deben cumplirse, analizaremos los métodos modernos para aislar la causalidad y destrozaremos varios mitos mediante ejemplos prácticos. Si terminas esta lectura, nunca volverás a mirar un gráfico de dispersión de la misma manera.

El abismo entre correlación y causalidad

La correlación mide el grado de asociación lineal entre dos variables. El coeficiente de Pearson, por ejemplo, oscila entre -1 y 1 y nos dice con qué intensidad y dirección se mueven juntas dos series de datos. Es una herramienta descriptiva maravillosa, pero muda respecto al origen de esa relación.

Tema relacionado:
Teoría Estadística: Definición y ejemplos

La causalidad, en cambio, responde a una pregunta contrafactual: ¿qué habría ocurrido si la causa no hubiera existido? Si desactivamos las notificaciones push para un grupo de usuarios idénticos a los que las recibieron, ¿disminuiría su gasto? La diferencia entre el resultado observado y este escenario alternativo imaginario es el efecto causal.

El problema es que jamás podremos observar ambos mundos para el mismo individuo en el mismo instante. Un usuario no puede, simultáneamente, recibir y no recibir la notificación. Este es el problema fundamental de la inferencia causal, y la razón por la que demostrar causalidad es tan escurridizo.

Correlaciones espurias que engañan al sistema

No hay mejor pedagogía que el ridículo. Estas correlaciones, estadísticamente impecables, ilustran por qué dos líneas paralelas en un gráfico no prueban nada:

El consumo de queso per cápita en Estados Unidos se correlaciona casi a la perfección con el número de personas que murieron enredadas en sus sábanas (r > 0,94 según Spurious Correlations).
El gasto en ciencia, espacio y tecnología de Estados Unidos guarda una relación asombrosa con los suicidios por ahorcamiento, estrangulación y sofocación.
La cantidad de doctores en química Nicholas Cage que aparecen en películas cada año se correlaciona con las muertes por ahogamiento en piscinas.

Nadie, en su sano juicio, propondría prohibir el queso para salvar vidas ni aumentar el presupuesto espacial para reducir suicidios. Estos ejemplos, aunque grotescos, encierran una verdad profunda: si no identificas el mecanismo causal, eres libre de inventar explicaciones sin sentido.

Las tres condiciones clásicas para inferir causalidad

Antes de los modelos matemáticos modernos, la epidemiología y la filosofía de la ciencia sentaron las bases con tres criterios que, aunque insuficientes por sí solos, siguen siendo un excelente filtro de partida.

Tema relacionado:
Estadística Descriptiva: Concepto y ejemplos

Asociación estadística

La causa y el efecto deben estar correlacionados. Si la supuesta causa no muestra ninguna relación con el efecto en los datos observados, difícilmente podremos argumentar que lo provoca. Es la condición más obvia: ¿varían juntos? Si la respuesta es no, detente aquí.

Precedencia temporal

La causa debe ocurrir antes que el efecto. Parece una perogrullada, pero en estudios observacionales con datos recolectados en un único instante puede ser difícil de establecer. Por ejemplo, ¿la depresión causa insomnio o el insomnio causa depresión? La dirección temporal es crucial y a menudo ambigua.

Ausencia de factores de confusión (terceras variables)

Aquí está el verdadero desafío. Un confusor es una variable que influye simultáneamente en la causa y en el efecto, generando una correlación artificial entre ellas.

En nuestro ejemplo del comercio electrónico, la intención de compra del usuario actúa como confusor: los usuarios con alta intención de compra (1) tienen más probabilidad de recibir una notificación porque el algoritmo los detecta y (2) compran más porque, justamente, ya querían comprar. La notificación es inocente; la correlación se debe casi por completo al confusor.

Eliminar o controlar todos los confusores relevantes es la condición más exigente y la que separa los estudios observacionales sólidos de los meramente especulativos.

Tema relacionado:
Valor Atípico: Definición y ejemplos de estadística

El modelo contrafactual y los diagramas causales

La estadística moderna ha refinado la noción de causalidad mediante dos herramientas imprescindibles que todo estudiante de datos debería dominar.

Resultados potenciales (Modelo de Rubin)

Imagina un tratamiento médico binario (medicamento sí vs. medicamento no). Para cada paciente *i*, existen dos resultados potenciales:

Y⁽¹⁾ᵢ : lo que le ocurriría si recibe el tratamiento.
Y⁽⁰⁾ᵢ : lo que le ocurriría si no lo recibe.

El efecto causal individual sería Y⁽¹⁾ᵢ – Y⁽⁰⁾ᵢ, pero solo podemos observar uno de los dos. Por eso la inferencia causal se enfoca en el efecto causal promedio (Average Treatment Effect, ATE), que bajo ciertas condiciones (como la aleatorización) se vuelve identificable a partir de los datos observados.

Esta formulación contrafactual proporciona un lenguaje matemático preciso para expresar lo que la intuición ya sospechaba: comparar a un tratado contra sí mismo en una realidad paralela es imposible, pero bajo diseño experimental cuidadoso podemos estimar una diferencia promedio que se aproxime a la verdad.

3.2. Diagramas Causales (DAGs)

Los Grafos Acíclicos Dirigidos (DAGs, por sus siglas en inglés) son la contribución seminal de Judea Pearl. Un DAG es un dibujo donde las flechas representan relaciones causales directas y la ausencia de flechas significa la ausencia de efecto causal.

La magia de los DAGs reside en el criterio de la puerta trasera (backdoor criterion). Si queremos estimar el efecto de X sobre Y, debemos “bloquear” todas las rutas de puerta trasera, es decir, todos los caminos alternativos que conecten X e Y mediante confusores. Esto se logra condicionando (controlando) por las variables adecuadas.

El DAG nos obliga a explicitar nuestras asunciones causales antes de tocar un solo dato. No es un adorno visual: es una declaración de principios sobre cómo creemos que funciona el mundo.

Métodos para identificar causalidad con datos reales

Puesto que los experimentos controlados aleatorizados son caros, poco éticos o directamente imposibles en muchas disciplinas, la econometría y la epidemiología han desarrollado estrategias cuasiexperimentales fascinantes.

Experimentos Aleatorizados (RCTs)

El patrón oro. Al asignar el tratamiento al azar, rompemos la relación entre el tratamiento y cualquier confusor, conocido o desconocido. La aleatorización garantiza que, en promedio, los grupos de tratamiento y control sean estadísticamente idénticos en todas las características previas. Si después observamos diferencias en el resultado, podemos atribuirlas causalmente al tratamiento.

Su principal limitación es la validez externa: lo que funciona en un laboratorio o en una muestra ultra controlada puede no funcionar en la población general.

Variables instrumentales

Cuando existe un confusor no observado y no podemos aleatorizar, podemos usar un instrumento: una variable que afecta a la causa pero no tiene efecto directo sobre el resultado, y que solo influye en el resultado a través de la causa. El instrumento más famoso es el “draft number” en los estudios sobre el servicio militar. El número de reclutamiento no afecta los ingresos futuros por sí mismo; solo los afecta a través de la probabilidad de servir en el ejército.

Diferencias en diferencias

Si observamos un grupo tratado y uno de control antes y después de una intervención, podemos calcular el cambio en cada grupo. La diferencia entre ambos cambios es el estimador de diferencias en diferencias, que elimina las tendencias temporales comunes y los efectos fijos de grupo. Muy usado para evaluar políticas públicas.

Regresión discontinua

Cuando la asignación del tratamiento se determina por un umbral arbitrario en una variable continua, podemos comparar a los individuos justo por encima y justo por debajo del umbral. Por ejemplo, estudiantes con nota 89 (no obtienen beca) vs. 90 (sí obtienen beca). En las inmediaciones del punto de corte, los grupos deberían ser prácticamente idénticos salvo por la recepción del tratamiento.

Emparejamiento por puntaje de propensión (Propensity Score Matching)

Imita la aleatorización emparejando a cada tratado con un control que tenga una probabilidad similar de haber recibido el tratamiento, en función de las covariables observables. Es popular pero frágil: solo controla por lo que vemos; cualquier confusor no medido seguirá sesgando los resultados.

Ejemplos aplicados que todo estudiante debe conocer

Ejemplo 1: Tabaco y cáncer de pulmón
Durante décadas, la industria tabacalera esgrimió que la relación entre fumar y el cáncer era “meramente correlacional”. Los epidemiólogos no podían realizar un experimento obligando a personas a fumar durante treinta años. La demostración causal se construyó a través de la acumulación de evidencia observacional con control de confusores, criterios de Bradford-Hill y estudios en animales. Hoy el consenso causal es absoluto.

Ejemplo 2: Redes sociales y salud mental adolescente
Los estudios observacionales muestran una correlación negativa entre horas de uso de Instagram y bienestar psicológico. Pero, ¿las redes causan malestar o los adolescentes con malestar se refugian en las redes? La dirección causal no está resulta y los titulares sensacionalistas suelen ignorar esta ambigüedad. Identificar la causalidad aquí requiere diseños longitudinales y, si es posible, experimentos de desactivación aleatoria.

Ejemplo 3: Educación e ingresos
Sabemos que las personas con mayor nivel educativo ganan más dinero. Sin embargo, la variable “habilidad innata” actúa como un confusor gigantesco: las personas más hábiles suelen estudiar más *y* también ganarían más aunque no estudiaran. Los economistas han utilizado variables instrumentales (como la distancia a la universidad más cercana o cambios en la escolaridad obligatoria) para aislar el efecto causal de la educación sobre los ingresos. Los resultados sugieren un efecto causal positivo y relevante, pero menor que la simple correlación bruta.

La revolución del “descubrimiento causal” y la inteligencia artificial

En la última década ha emergido un campo que va más allá de estimar el efecto de una causa conocida: el descubrimiento causal. Dado un conjunto de datos observacionales, estos algoritmos intentan aprender la estructura del DAG subyacente sin conocimiento previo.

Métodos como los basados en restricciones (PC algorithm), los basados en puntuaciones (GES) o los que aprovechan modelos de ecuaciones estructurales funcionales (LiNGAM) están empezando a aplicarse en genómica, climatología y econometría. Estos algoritmos explotan propiedades como las independencias condicionales y la no gaussianidad para orientar las flechas causales.

Sin embargo, la prudencia es obligatoria: sin intervenciones experimentales o conocimiento experto sólido, el descubrimiento puramente algorítmico de la causalidad sigue siendo un problema extraordinariamente difícil y con garantías limitadas.

Por qué dominar la causalidad te convierte en un profesional diferente

La ciencia de datos vive un momento de saturación de modelos predictivos que funcionan como cajas negras. Predecir con precisión es útil, pero predecir no es comprender. Los modelos causales, en cambio, responden a preguntas de intervención: ¿qué pasará si cambiamos esta variable?, ¿cuál es la causa raíz del problema?.

Entender causalidad te permite:

Evitar decisiones millonarias basadas en espejismos estadísticos.
Diseñar experimentos que aíslen el efecto de una nueva funcionalidad.
Evaluar correctamente políticas públicas y tratamientos médicos.
Dialogar con rigor sobre temas complejos como el impacto de la tecnología en la sociedad.
Escapar del ruido de las correlaciones espurias que plagan los medios de comunicación.

Errores típicos del estudiante (y cómo esquivarlos)

Confundir predicción con explicación: un modelo que predice bien no necesariamente identifica las causas. Los modelos de Machine Learning sin estructura causal son pésimos guías para la acción.
Ignorar los confusores no medidos: si no está en tu base de datos, no significa que no exista. La prudencia causal obliga a discutir abiertamente las limitaciones.
Sobrecontrolar variables mediadoras: si controlas por una variable que es consecuencia de la causa, eliminarás parte del efecto que intentas medir. Los DAGs ayudan a distinguir confusores de mediadores.
Malinterpretar la significación estadística como magnitud del efecto: algo puede ser estadísticamente significativo y causalmente insignificante en términos prácticos. Siempre reporta intervalos de confianza y tamaños del efecto.

La causalidad es el puente que une los datos con la toma de decisiones. Sin ella, la estadística es un catálogo de sombras y coincidencias. Con ella, se convierte en una linterna que ilumina los mecanismos del mundo.

Resultados de aprendizaje

Al finalizar la lectura de este artículo, deberías ser capaz de:

Definir con precisión la diferencia entre correlación y causalidad, utilizando ejemplos propios para ilustrar cada concepto.
Enumerar y explicar las tres condiciones clásicas para la inferencia causal (asociación, precedencia temporal y ausencia de confusión), identificando cuál es la más difícil de satisfacer en estudios observacionales.
Interpretar el problema fundamental de la inferencia causal desde la perspectiva del modelo de resultados potenciales (modelo de Rubin).
Leer y construir DAGs simples, aplicando el criterio de puerta trasera para determinar por qué variables se debe controlar y cuáles no.
Describir al menos tres métodos cuasiexperimentales (variables instrumentales, diferencias en diferencias, regresión discontinua), explicando en qué contexto se utiliza cada uno.
Identificar correlaciones espurias en situaciones cotidianas y argumentar por qué no implican causalidad, mostrando pensamiento crítico frente a titulares de prensa.
Reconocer la importancia de la causalidad en la toma de decisiones empresariales, sanitarias y de política pública, y distinguir entre modelos predictivos y modelos causales.

Twittear

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo Editor y fundador