Construction of an audiovisual chilean speaker dataset

Esta tesis presenta los resultados de la recopilación de un conjunto de datos audiovisuales de rostros, enfocados en la variante del español hablado en Chile a través de un pipeline semiautomático. Además, el proceso de recopilación utiliza recursos de fácil acceso, como sitios de streaming de video y hardware de consumidor. El proyecto es de código abierto, ya que se crearon todas las herramientas necesarias o utilizaron frameworks de acceso público. Existen conjuntos de datos audiovisuales similares para inglés y chino, los cuales no están enfocados en variantes o acentos locales. Esta tesis, por el contrario, se centra deliberadamente en la variante del español hablada en Chile, lo que representa la primera recopilación de datos curados in-the-wild para esta variante lingüística. La principal innovación de este trabajo consiste en la recopilación automatizada de personas de interés (Persons of Interest). Un web scraper recopila artículos de noticias nacionales y luego detecta entidades nombradas relevantes. El scraper adquirió más de 420,000 artículos de cinco sitios web de noticias nacionales y detectó más de 420,000 entidades nombradas. Una verificación manual de los primeros 1,000 entidades más relevantes muestra que alrededor del 40% de los nombres etiquetados pertenecen a hablantes nacidos en Chile. La etapa de descarga de videos recopiló 8,303 archivos, con un total de 1.8 TB y más de 121 días de metraje. Las pruebas en una muestra identificaron parámetros clave: el salto de fotogramas a 15 FPS redujo al mínimo el error cuadrático medio (MSE), mientras que el escalado de fotogramas a 550 px en el lado mayor aceleró el procesamiento, afectando al 75% del conjunto de datos y conservando el 86% de las caras detectadas. Un umbral constante para histogramas de color fue el mejor para la detección de transiciones de escena, y el seguimiento de caras con un mínimo de 10 segundos produjo la mayor cantidad de rastreos en el rango de 5-10 segundos a 15 FPS. La interpolación de primer orden mejoró la reducción de temblores y la calidad de detección. Las herramientas y los datos obtenidos quedarán disponibles para futuras investigaciones, lo que ayudará a crear aplicaciones e ideas innovadoras más allá del aprendizaje automático. Los datos disponibles pueden promover la colaboración interdisciplinaria entre la lingüística, la informática y las ciencias sociales. Los informáticos, por ejemplo, pueden utilizar estos datos para entrenar aplicaciones de sincronización de labios o generación de avatares. Los lingüistas, por otro lado, pueden encontrar un corpus de datos de hablantes que se expresan naturalmente fuera de las condiciones del laboratorio, ayudando así en el estudio de la lengua hablada.

This thesis presents the compilation results of an audiovisual dataset of faces, targeting the Spanish variant spoken in Chile through a semiautomatic pipeline. Furthermore, the collection process uses easily accessible resources, such as video streaming sites and consumergrade hardware. The pipeline is open-source as it created all necessary tools or used publicaccess frameworks. Similar audiovisual datasets exist for English and Chinese, with no intentional focus on local variants or accents. This thesis, in contrast, intentionally targets the variant of Spanish spoken in Chile, representing the first in-the-wild curated data collection for this language variant. The main innovation involves the automated Persons of Interest (POI) collection. A web scrapper compiles national news articles and then detects relevant named entities. The scrapper acquired over 420,000 articles from five national news websites and detected more than 420,000 named entities. A manual check of the 1,000 top-ranked entities shows that around 40% of the tagged names belong to speakers born in Chile. The video download step compiled 8,303 files, totaling 1.8 TB and over 121 days of footage. Testing on a sample identified key parameters: frame skipping to 15 FPS minimized mean squared error (MSE), while scaling frames to 550 px on the major side sped up processing, affecting 75% of the dataset and retaining 86% of detected faces. A constant threshold for color histograms was best for shot detection, and face tracking with a 10-second minimum yielded the most tracks in the 5-10 second range at 15 FPS. First-order interpolation improved jitter reduction and detection quality. Developed tools and data will be left available for further research, which will help create innovative applications and ideas beyond machine learning. The available data can promote interdisciplinary collaboration between linguistics, computer science and social sciences. Computer scientists, for example, can use this data to train lip synchronisation or avatar generation applications. Linguists, on the other hand, can find a corpus of data of speakers expressing naturally outside lab conditions, thus helping in the study of the spoken language.

xmlui.dri2xhtml.METS-1.0.item-notadetesis.item

Tesis para optar al grado de Magíster en Ciencias Mención Computación

Memoria para optar al título de Ingeniero Civil en Computación

Identifier

URI: https://repositorio.uchile.cl/handle/2250/202391
DOI: 10.58011/9mc8-cf81

Collections