Outlier detection for multicandidate elections with demographic groups
Tesis

Access note
Acceso abierto
Publication date
2023Metadata
Show full item record
Cómo citar
Thraves Cortés-Monroy, Charles
Cómo citar
Outlier detection for multicandidate elections with demographic groups
Author
Professor Advisor
Abstract
Ecological inference is a technique to estimate individual behaviour by using aggregated data. A particular case is found in political elections where in each ballot box we know the candidates’ votes and the number of voters for different demographic group (like age, sex and nationality). In this work, we apply the EM-algorithm to estimate the voting probabilities of demographic groups for each candidate at a particular district. Unfortunately, the E-Step scales exponentially in the number of candidates. We propose four alternative polynomial methods to estimate the E-Step probabilities: (1) sample scenarios using hit-and-run, (2) approximate using a multivariate normal with Monte Carlo integration or (3) a multivariate normal using its PDF, and (4) approximate by a single multinomial. We show from numerical computations that the multinomial approximation method is the fastest, running in less than a hundredth of a second. In addition, the mean absolute error of the estimated probability with this method is very similar to the one obtained when performing the EM-algorithm with the exact probability. We run the proposed methods in the first round Chilean Presidential Election of 2021. We present a methodology that uses mixed integer programming to aggregate groups, and estimate confidence intervals on the estimated probabilities by using bootstrapping, so that the model can correctly identify the voting probabilities. We observe that districts with more ballot boxes benefit from less aggregated group sets in contrast to districts with less ballot boxes. Finally, we compute p-values using simulation with the multinomial approximation, obtaining 27 ballot-boxes with a p-value lower or equal than 10−8. La inferencia ecológica es una técnica para estimar el comportamiento individual utilizando datos agregados. Un caso particular se encuentra en las elecciones políticas, donde en cada mesa electoral conocemos los votos de los candidatos y el número de votantes de distintos grupos demográficos (como la edad, el sexo y la nacionalidad). En este trabajo, aplicamos el algoritmo EM para estimar las probabilidades de voto de los grupos demográficos para cada candidato en un distrito determinado. Desafortunadamente, el E-step escala exponencialmente en el número de candidatos. En este estudio proponemos cuatro métodos polinomiales alternativos para estimar las probabilidades del paso E-step: (1) simulación de escenarios utilizando un método de hit-and-run, (2) aproximación utilizando una distribución normal multivariada con integración de Monte Carlo o (3) una distribución normal multivariada utilizando su FDP, y (4) aproximación mediante una única multinomial. Mostramos a partir de experimentos numéricos que el método de aproximación multinomial es el más rápido, ejecutándose en menos de una centésima de segundo. Además, el error absoluto promedio de la probabilidad estimada con este método es muy similar al obtenido al realizar el algoritmo EM con la probabilidad exacta. Implementamos los métodos propuestos en la primera vuelta de la elección presidencial de Chile de 2021. Presentamos una metodología que utiliza programación entera mixta para agregar grupos y estimar intervalos de confianza en las probabilidades estimadas mediante el uso de bootstraping, de modo que el modelo pueda identificar correctamente las probabilidades de voto. Observamos que los distritos con más mesas electorales se benefician de conjuntos de grupos menos agregados en contraste con los distritos con menos mesas electorales. Finalmente, calculamos p-valores utilizando simulación con la aproximación multinomial, obteniendo 27 urnas electorales con un p-valor menor o igual 1e-08.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Gestión de Operaciones Memoria para optar al título de Ingeniero Civil Industrial
Patrocinador
FONDO PUENTE DAII - FCFM 2023 Powered@NLHPC: Esta tesis fue parcialmente apoyada por la infraestructura de supercómputo del NLHPC (ECM-02)
Collections
The following license files are associated with this item: