Predicción de ubicación frecuente a nivel regional de usuarios chilenos de Twitter
Professor Advisor
dc.contributor.advisor
Velásquez Silva, Juan
Author
dc.contributor.author
Caamaño Lobos, María Ignacia
Associate professor
dc.contributor.other
Contreras Fuentes, Astrid
Associate professor
dc.contributor.other
Ruiz Moreno, Rocío
Admission date
dc.date.accessioned
2019-05-15T19:45:54Z
Available date
dc.date.available
2019-05-15T19:45:54Z
Publication date
dc.date.issued
2018
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/168605
General note
dc.description
Memoria para optar al título de Ingeniera Civil Industrial
es_ES
Abstract
dc.description.abstract
El presente trabajo de título tiene como objetivo diseñar y construir modelos de clasificación para predecir cuáles usuarios de Twitter viven en Chile y en cuál de las quince regiones administrativas de Chile habitan; utilizando información pública del perfil y el contenido que emiten, mediante algoritmos de Machine Learning.
Las redes sociales son uno de los medios de comunicación más utilizados en el mundo hoy en día en donde segundo a segundo se reciben millones de datos. Si hablamos de Twitter, este contiene a diario más de 328 millones de usuarios activos en todo el mundo que publican cerca de 6.000 tweets por segundo. Todos estos datos que se comparten son de gran utilidad para poder caracterizar de mejor forma a los usuarios. Una de estas características es la geolocalización, la cual está siendo cada vez más utilizada para conocer mejor a los clientes y usuarios. Pero, obtener este atributo para cada usuario no es tarea fácil ya que este dato, por lo general, no es público o es incierto.
En particular, el proyecto SONAMA y proyecto OpinionZoom del Web Intelligence Center, buscan geolocalizar a los usuarios chilenos de Twitter a nivel regional para utilizar esta característica dentro de sus investigaciones y poder mejorar los niveles de granularidad que están alcanzando con respecto a la geolocalización de las personas.
Para esto, a partir de la API REST de Twitter y de una encuesta realizada en el WIC, se extraen datos para construir bases de entrenamiento etiquetadas para diseñar y entrenar dos modelos de clasificación con el fin de que uno identifique a los usuarios chilenos de Twitter y el segundo identifique la región en que cada usuario chileno vive. Para ambos modelos se analiza el desempeño de tres algoritmos diferentes.
El modelo país, mediante Stochastic Gradient Descent, logra un AUC de 99,89% y un F1-Score de la clase positiva de 98,95% tras validación cruzada de 5-iteraciones, el cual supera los resultados de la heurística de clasificación que actualmente se utiliza. Por otro lado, el modelo región, mediante Stochastic Gradient Descent, logra un F1-Macro de 42,54% y Accuracy de 40,73% tras validación cruzada de 5-iteraciones. Resultado el cual, si bien bajo, mejora la situación actual con respecto al 6,67% que entrega la aleatoriedad.
Finalmente, se valida la hipótesis de investigación en su totalidad ya que es posible determinar los usuarios chilenos de Twitter y su región frecuente utilizando exclusivamente el contenido que se publica y atributos de contexto del usuario. Tanto el modelo país como el modelo región superan la situación actual, por lo que sus resultados quedan como baseline para próximas investigaciones.