Uso de Machine Learning y procesamiento de señales para detección de comerciales en la radio
Tesis
Access note
Acceso abierto
Publication date
2022Metadata
Show full item record
Cómo citar
Larrañaga Recart, Antonia
Cómo citar
Uso de Machine Learning y procesamiento de señales para detección de comerciales en la radio
Author
Professor Advisor
Abstract
El problema de clasificación de audio presenta distintos entornos de aplicación. Desde
predicción de instrumento musical, identificación de especie de animal en base al sonido
emitido, y otros. Aún con la variedad de problemas de clasificación de audio, la bibliografía
respecto la detección de comerciales es escasa. Muchos enfoques se proponen de todas formas
para el problema general. Los más modernos implican la extracción de espectrogramas de las
muestras y clasificación con modelos de redes neuronales.
Esta memoria se centra en la detección de comerciales en un subconjunto de radio emisoras
de Chile. Se entenderá por comercial aquellas grabaciones de publicidad creadas por las
distintas compañías, no aquellas menciones de los locutores a los auspiciadores. Las radios
corresponden a: Bíobio, Pudahuel, Cooperativa, Corazón, El Pinguino, Fiesta, Imagina, Luna
Tropical y Valparaíso. La elección es debido a la disponibilidad de grabaciones de las radios
recién mencionadas.
En el presente trabajo se crea un dataset compuesto por más de 1200 minutos de audio
correspondientes a grabaciones de correspondientes a las emisoras ya mencionadas. Este
dataset generado se utilizó para entrenar distintos modelos de clasificación, agrupados en
tres enfoques distintos.
Los modelos y enfoques implementados son los siguientes: a) espectrogramas (generar
imágenes a partir de segmentos de audio) para generación de características y redes neurona-
les convolucionales como modelo de clasificación, b) extraer coeficientes de MEL utilizando
análisis de ventana de distintos tamaño para implementar modelos más simples con sk-learn
para clasificar y, c) redes neuronales recurrentes (mediante la librería de procesamiento de
audio Resemblyzer) para la extracción de características y los modelos simples de sk-learn
como clasificador.
El modelo que se elige para ser utilizado en ambientes de producción corresponde a utilizar
Resemblyzer para extracción de características y modelos de clasificación de sk-learn. Los
resultados obtenidos en producción con audios de la radio Bíobio son de un 90 % de accuracy
sobre un conjunto de 3 hrs y 20 minutos de duración.
Finalmente, se detalla sobre la estructura e infraestructura AWS utilizada para el paso a
producción de los modelos desarrollados.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Memoria para optar al título de Ingeniero Civil Eléctrico
Patrocinador
UNHOLSTER
Identifier
URI: https://repositorio.uchile.cl/handle/2250/191830
Collections
The following license files are associated with this item: