El promedio de encuestas que elabora EL PAÍS mantiene a Claudia Sheinbaum como principal candidata a ganar la presidencia de México, con el 56% del voto estimado, por delante de Xóchitl Gálvez (36%) y Jorge Álvarez Máynez (7%).
A un mes de la votación, la candidata de Morena es una firme favorita. Pero, ¿qué probabilidades tiene exactamente?
Para responder eso usamos un modelo de predicción, como los que EL PAÍS ha usado en decenas de elecciones, incluidas las de México en 2018. El modelo funciona en tres pasos que se detallan en la metodología: (1) partimos del promedio de encuestas; (2) añadimos incertidumbre alrededor según el error histórico de los sondeos y el tiempo que falta hasta la votación; y (3) simulamos las elecciones 20.000 veces para asignar probabilidades de victoria.
Después de ese proceso, nuestra predicción es que Claudia Sheinbaum tiene un 86% de opciones de victoria, por un 14% de su rival Xóchitl Gálvez:
Es importante interpretar bien estas probabilidades. Sheinbaum es una favorita clara. Pero Gálvez no está descartada, porque los sucesos de probabilidad 14% ocurren algunas veces. La sorpresa es tan fácil (o difícil) como ver fallar un penalti a un tirador de élite como Cristiano Ronaldo. En esencia, lo que estamos modelando es la probabilidad de que los sondeos se equivoquen, o se muevan, lo suficiente como para que haya una sorpresa.
Gálvez recorta distancia, pero despacio
El promedio de encuestas lleva meses moviéndose para reducir la ventaja de Sheinbaum sobre Gálvez, desde los 32 puntos de diferencia en diciembre hasta los 20 actuales. Y hay encuestadoras como Altica que ya reducen esa distancia a 10 puntos.
Desde febrero es evidente un lento retroceso de la candidata oficialista. Sin embargo, Gálvez lo aprovecha solo en parte, porque en estos meses sube también el tercer candidato, Álvarez Máynez, que pasa del 5% al 7% de votos en el promedio.
Otros pronósticos coinciden en ver a Sheinbaum como firme favorita
Según el mercado de predicción Polymarket, Sheinbaum gana con 95% de probabilidades. Y según la comunidad de predicción Metaculus, que tengo en buena consideración por su precisión, tendría un 89% de opciones, más cerca de nuestro propio modelo.
No obstante, es interesante fijarse en cómo han ido moviéndose los pronosticadores en estos meses. Porque, a pesar de que Sheinbaum ha retrocedido en los sondeos, sus opciones de ganar según Metaculus han ido aumentando. Al pasar las semanas sin datos ni noticias desfavorables para la candidata, aumentaron la confianza en su victoria.
Metodología
Las predicciones las produce un modelo estadístico basado en sondeos y en su precisión histórica. Uno similar a los que usamos en España en 2023 y dos veces en 2019, en Andalucía, Cataluña o Madrid. . También en México hace seis años, en Francia o el Reino Unido. El modelo funciona en tres pasos: 1) agregar y promediar las encuestas, 2) incorporar la incertidumbre esperada, y 3) simular 20.000 elecciones calcular probabilidades.
Paso 1. Promediar las encuestas. Nuestro promedio tienen en cuenta docenas de sondeos para mejorar su precisión. Los datos han sido recopilados en su mayoría desde la web Oraculus.mx. El promedio está ponderado para dar distinto peso a cada encuesta según dos factores: la casa encuestadora (las empresas sin trayectoria tienen menos peso; las que no publican sus datos en el INE son excluidas) y la fecha. Queremos dar más peso a las encuestas recientes al calcular el promedio, y que el último día solo importan las últimas publicadas por cada encuestador. Para eso asignamos pesos a los sondeos según una ley decreciente exponencial. Y definimos una franja de exclusión que ignora las encuestas con más de 30 días de antigüedad. Además, penalizamos las encuestas repetidas de un mismo encuestador. Al calcular el promedio en una fecha, la encuesta más cercana de cada casa tiene peso uno, pero el resto de sus estudios casi se ignoran.
Los promedios como el nuestro pueden verse como una estimación de consenso. En lugar de confiar en un único encuestador, agregan el criterio y las hipótesis de muchos. Los promedios reducen el ruido, evitando que las tendencias salten arriba y abajo por azar. Y sobre todo: se ha demostrado que mejoran la precisión.
Paso 2. Incorporar la incertidumbre de las encuestas. Este es el paso más complicado y más importante. Necesitamos estimar la precisión esperada de los sondeos en México. ¿De qué magnitud son los errores habituales? ¿Cómo de probable es que se produzcan errores de 3, 5 o 15 puntos? Para responder esas preguntas se estudian decenas de encuestas en México y miles internacionales.
Calibrar los errores esperados. Primero he estimado el error de las encuestas en México. He construido una base de datos con encuestas de siete elecciones desde 2000. El error absoluto medio (MAE) de los promedios de encuestas en México, por candidato o partido, considerando aquellos con más del 10% de votos, ha rondado los 3,8 puntos en las presidenciales y los 2,2 puntos en las legislativas. Es decir, fueron habituales desviaciones de cuatro o cinco puntos y el margen de error (95%) rondó los nueve puntos. Como siete elecciones son pocas para extraer conclusiones fuertes, también revisamos una veintena de votaciones en otros países de Latinoamérica, donde el error MAE se elevó al 4,1 puntos. Al final, siguiendo un principio de cautela, he decidido que nuestro modelo asuma un MAE de 3,8 puntos en México.
Además, esa incertidumbre se modula teniendo en cuenta dos factores adicionales: el tamaño del candidato/partido (porque es más fácil estimar el voto de un partido si ronda el 5% que si se acerca al 50%) y la cercanía de las elecciones (porque las encuestas del final son casi siempre más precisas). Para ajustar esta parte del modelo he recurrido a la base de datos de Jennings y Wlezien, publicada en Nature, y analizado los errores de 4.100 encuestas en 241 elecciones de 19 países occidentales.
Elección del tipo de distribución. Para incorporar la incertidumbre al voto de cada candidato/partido en cada simulación utilizo una distribución multivariable. Uso distribuciones t-student en lugar de normales para que tengan colas más largas (curtosis): eso hace más probable que sucedan eventos muy extremos. Las ventajas de esa hipótesis la explicó Nate Silver. El nivel de curtosis lo he estimado con la base de datos anterior. Luego defino la matriz de covarianzas de estas distribuciones para que la suma de los votos no sobrepase el 100% (una idea de Chris Hanretty). Por último, hay que escalar la amplitud de las matrices de covarianza para que las distribuciones de voto que resultan al final tengan el MAE y la desviación estándar esperados según la calibración.
Paso 3. Simular. El último paso consiste en ejecutar el modelo 20.000 veces. Cada iteración es una simulación de las elecciones con porcentajes de voto que varían según la distribución definida en el paso anterior. Los resultados en esas simulaciones permiten calcular las probabilidades que tiene cada candidato de ser el más votado y alcanzar la presidencia.
Por qué encuestas. Este modelo se basa por entero en encuestas. Existe la percepción de que los sondeos no son fiables, pero lo cierto es que las encuestas funcionan. Las encuestas raramente son perfectas, pero no existe ninguna alternativa que se haya demostrado mejor.
Fuente: EL PAÍS