Uso de Machine Learning y procesamiento de señales para detección de comerciales en la radio
Professor Advisor
dc.contributor.advisor
Larrañaga Recart, Antonia
Author
dc.contributor.author
Irarrázaval Infante, Diego
Associate professor
dc.contributor.other
Rivera Serrano, Francisco
Associate professor
dc.contributor.other
Barrios Núñez, Juan Manuel
Admission date
dc.date.accessioned
2023-01-27T13:07:03Z
Available date
dc.date.available
2023-01-27T13:07:03Z
Publication date
dc.date.issued
2022
Identifier
dc.identifier.other
10.58011/wcvc-4y60
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/191830
Abstract
dc.description.abstract
El problema de clasificación de audio presenta distintos entornos de aplicación. Desde
predicción de instrumento musical, identificación de especie de animal en base al sonido
emitido, y otros. Aún con la variedad de problemas de clasificación de audio, la bibliografía
respecto la detección de comerciales es escasa. Muchos enfoques se proponen de todas formas
para el problema general. Los más modernos implican la extracción de espectrogramas de las
muestras y clasificación con modelos de redes neuronales.
Esta memoria se centra en la detección de comerciales en un subconjunto de radio emisoras
de Chile. Se entenderá por comercial aquellas grabaciones de publicidad creadas por las
distintas compañías, no aquellas menciones de los locutores a los auspiciadores. Las radios
corresponden a: Bíobio, Pudahuel, Cooperativa, Corazón, El Pinguino, Fiesta, Imagina, Luna
Tropical y Valparaíso. La elección es debido a la disponibilidad de grabaciones de las radios
recién mencionadas.
En el presente trabajo se crea un dataset compuesto por más de 1200 minutos de audio
correspondientes a grabaciones de correspondientes a las emisoras ya mencionadas. Este
dataset generado se utilizó para entrenar distintos modelos de clasificación, agrupados en
tres enfoques distintos.
Los modelos y enfoques implementados son los siguientes: a) espectrogramas (generar
imágenes a partir de segmentos de audio) para generación de características y redes neurona-
les convolucionales como modelo de clasificación, b) extraer coeficientes de MEL utilizando
análisis de ventana de distintos tamaño para implementar modelos más simples con sk-learn
para clasificar y, c) redes neuronales recurrentes (mediante la librería de procesamiento de
audio Resemblyzer) para la extracción de características y los modelos simples de sk-learn
como clasificador.
El modelo que se elige para ser utilizado en ambientes de producción corresponde a utilizar
Resemblyzer para extracción de características y modelos de clasificación de sk-learn. Los
resultados obtenidos en producción con audios de la radio Bíobio son de un 90 % de accuracy
sobre un conjunto de 3 hrs y 20 minutos de duración.
Finalmente, se detalla sobre la estructura e infraestructura AWS utilizada para el paso a
producción de los modelos desarrollados.
es_ES
Patrocinador
dc.description.sponsorship
UNHOLSTER
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States