Construction of an audiovisual chilean speaker dataset

González Mora, Sebastián Aníbal

Professor Advisor	dc.contributor.advisor	Hitschfeld Kahler, Nancy
Author	dc.contributor.author	González Mora, Sebastián Aníbal
Associate professor	dc.contributor.other	Baloian Tataryan, Nelson
Associate professor	dc.contributor.other	Cerda Villablanca, Mauricio
Associate professor	dc.contributor.other	Terissi, Lucas
Admission date	dc.date.accessioned	2024-12-23T16:15:23Z
Available date	dc.date.available	2024-12-23T16:15:23Z
Publication date	dc.date.issued	2024
Identifier	dc.identifier.other	10.58011/9mc8-cf81
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/202391
Abstract	dc.description.abstract	Esta tesis presenta los resultados de la recopilación de un conjunto de datos audiovisuales de rostros, enfocados en la variante del español hablado en Chile a través de un pipeline semiautomático. Además, el proceso de recopilación utiliza recursos de fácil acceso, como sitios de streaming de video y hardware de consumidor. El proyecto es de código abierto, ya que se crearon todas las herramientas necesarias o utilizaron frameworks de acceso público. Existen conjuntos de datos audiovisuales similares para inglés y chino, los cuales no están enfocados en variantes o acentos locales. Esta tesis, por el contrario, se centra deliberadamente en la variante del español hablada en Chile, lo que representa la primera recopilación de datos curados in-the-wild para esta variante lingüística. La principal innovación de este trabajo consiste en la recopilación automatizada de personas de interés (Persons of Interest). Un web scraper recopila artículos de noticias nacionales y luego detecta entidades nombradas relevantes. El scraper adquirió más de 420,000 artículos de cinco sitios web de noticias nacionales y detectó más de 420,000 entidades nombradas. Una verificación manual de los primeros 1,000 entidades más relevantes muestra que alrededor del 40% de los nombres etiquetados pertenecen a hablantes nacidos en Chile. La etapa de descarga de videos recopiló 8,303 archivos, con un total de 1.8 TB y más de 121 días de metraje. Las pruebas en una muestra identificaron parámetros clave: el salto de fotogramas a 15 FPS redujo al mínimo el error cuadrático medio (MSE), mientras que el escalado de fotogramas a 550 px en el lado mayor aceleró el procesamiento, afectando al 75% del conjunto de datos y conservando el 86% de las caras detectadas. Un umbral constante para histogramas de color fue el mejor para la detección de transiciones de escena, y el seguimiento de caras con un mínimo de 10 segundos produjo la mayor cantidad de rastreos en el rango de 5-10 segundos a 15 FPS. La interpolación de primer orden mejoró la reducción de temblores y la calidad de detección. Las herramientas y los datos obtenidos quedarán disponibles para futuras investigaciones, lo que ayudará a crear aplicaciones e ideas innovadoras más allá del aprendizaje automático. Los datos disponibles pueden promover la colaboración interdisciplinaria entre la lingüística, la informática y las ciencias sociales. Los informáticos, por ejemplo, pueden utilizar estos datos para entrenar aplicaciones de sincronización de labios o generación de avatares. Los lingüistas, por otro lado, pueden encontrar un corpus de datos de hablantes que se expresan naturalmente fuera de las condiciones del laboratorio, ayudando así en el estudio de la lengua hablada.	es_ES
Abstract	dc.description.abstract	This thesis presents the compilation results of an audiovisual dataset of faces, targeting the Spanish variant spoken in Chile through a semiautomatic pipeline. Furthermore, the collection process uses easily accessible resources, such as video streaming sites and consumergrade hardware. The pipeline is open-source as it created all necessary tools or used publicaccess frameworks. Similar audiovisual datasets exist for English and Chinese, with no intentional focus on local variants or accents. This thesis, in contrast, intentionally targets the variant of Spanish spoken in Chile, representing the first in-the-wild curated data collection for this language variant. The main innovation involves the automated Persons of Interest (POI) collection. A web scrapper compiles national news articles and then detects relevant named entities. The scrapper acquired over 420,000 articles from five national news websites and detected more than 420,000 named entities. A manual check of the 1,000 top-ranked entities shows that around 40% of the tagged names belong to speakers born in Chile. The video download step compiled 8,303 files, totaling 1.8 TB and over 121 days of footage. Testing on a sample identified key parameters: frame skipping to 15 FPS minimized mean squared error (MSE), while scaling frames to 550 px on the major side sped up processing, affecting 75% of the dataset and retaining 86% of detected faces. A constant threshold for color histograms was best for shot detection, and face tracking with a 10-second minimum yielded the most tracks in the 5-10 second range at 15 FPS. First-order interpolation improved jitter reduction and detection quality. Developed tools and data will be left available for further research, which will help create innovative applications and ideas beyond machine learning. The available data can promote interdisciplinary collaboration between linguistics, computer science and social sciences. Computer scientists, for example, can use this data to train lip synchronisation or avatar generation applications. Linguists, on the other hand, can find a corpus of data of speakers expressing naturally outside lab conditions, thus helping in the study of the spoken language.	es_ES
Lenguage	dc.language.iso	en	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
Título	dc.title	Construction of an audiovisual chilean speaker dataset	es_ES
Document type	dc.type	Tesis	es_ES
dc.description.version	dc.description.version	Versión original del autor	es_ES
dcterms.accessRights	dcterms.accessRights	Acceso abierto	es_ES
Cataloguer	uchile.catalogador	chb	es_ES
Department	uchile.departamento	Departamento de Ciencias de la Computación	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.titulacion	uchile.titulacion	Doble Titulación	es_ES
uchile.carrera	uchile.carrera	Ingeniería Civil en Computación	es_ES
uchile.gradoacademico	uchile.gradoacademico	Magister	es_ES
uchile.notadetesis	uchile.notadetesis	Tesis para optar al grado de Magíster en Ciencias Mención Computación	es_ES
uchile.notadetesis	uchile.notadetesis	Memoria para optar al título de Ingeniero Civil en Computación

Files in this item

Name:: Construction-of-an-audiovisual ...
Size:: 12.70Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States