Spatio-temporal textual data modeling
Author
Professor Advisor
Abstract
La popularidad y el uso de redes sociales en dispositivos móviles con GPS proporciona una fuente de textos enriquecidos con contexto espacio-temporal. Otros dominios, como consultas a motores de búsqueda y descripciones de incidentes delictivos, son también fuentes de textos para los que se conoce cuándo y dónde fueron generados. Texto, tiempo y espacio tienen diferentes formas de representación; por lo que no es trivial desarrollar un modelo que los represente de forma conjunta. La representación conjunta de texto, tiempo y espacio se ha basado en técnicas que ignoran la estructura secuencial de los textos y propiedades de tiempo y espacio, como vecindad y jerarquía. Esto puede limitar la expresividad de un modelo para representar ciertos patrones. En esta tesis presentamos dos nuevos modelos para recuperación de información multi-modal y modelado de lenguaje condicionado espacio-temporalmente. Los modelos propuestos encuentran aplicaciones prácticas en recuperación en texto-espacio-tiempo y caracterización de zonas urbanas.
Para la tarea de recuperación multi-modal, proponemos un modelo basado en una red neuronal Acceptor que permite consultar con pares del trío texto-espacio-tiempo para recuperar el tercero. Esto resulta en tres tareas de recuperación que se entrenan simultáneamente. Nuestros experimentos muestran que modelar la estructura secuencial de los textos tiene un impacto positivo en la recuperación de tiempos y lugares. El modelo supera trabajos previos en márgenes desde el 1% al 21% en experimentos desarrollados sobre conjuntos de datos extraídos de las redes sociales Twitter y Foursquare. Nuestras evaluaciones cualitativas demuestran la utilidad del modelo propuesto para descubrir patrones espacio-temporales de delincuencia a partir de reportes de incidentes delictivos.
Para la tarea de modelado de lenguaje condicionado espacio-temporalmente, presentamos una red neuronal que nos permite representar tiempo y espacio como contexto para generaci´on de texto en diferentes granularidades. Nuestros resultados experimentales muestran diferencias significativas en c´omo el espacio y el tiempo afectan la generación de lenguaje. Para los datos extrai1dos de Twitter, el punto ideal para la representación espacial es celdas de 800m × 800m aproximadamente; mientras que para los datos de Foursquare, los mejores resultados se obtienen a medida que las celdas espaciales se hacen más pequeñas. Considerando la representación del contexto temporal, los resultados sobre los datos de Twitter mostraron mejoras marginales pero no fueron tan significativos como el contexto espacial; para los datos de Foursquare, incluir el contexto temporal es mejor que no incluirlo, pero cuando se combina con el contexto espacial muestra no ser un factor positivo. Desarrollamos análisis cualitativos que ejemplifican el uso del modelo propuesto para caracterizar zonas urbanas y cómo una red neuronal basada en atención permite visualizar las
relaciones entre el lenguaje natural y el contexto espacio-temporal dónde se genera.
En esta tesis presentamos dos modelos para representación de texto, tiempo y espacio. El modelo de lenguaje permite modelar tiempo y espacio en diferentes granularidades para generación de texto. El modelo para recuperaci´on multi modal permite consultar con pares de espacio, tiempo y texto; para recuperar el tercero.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Doctor en Ingeniería
Patrocinador
CONICYT-PCHA/Doctorado Nacional/2016-21160142, Fondecyt Grant No. 1181896, FONDEF Project ID16I10222 y el Instituto Milenio Fundamentos de los Datos
Collections
The following license files are associated with this item: