Reducción de Tiempos de inferencia en modelos de efectos de audio mediante técnicas de Knowledge Distillation
Professor Advisor
dc.contributor.advisor
Tobar Henríquez, Felipe
Author
dc.contributor.author
Canales Rodríguez, Diego Alonso
Associate professor
dc.contributor.other
Silva Sánchez, Jorge
Associate professor
dc.contributor.other
Ruiz del Solar San Martín, Javier
Admission date
dc.date.accessioned
2023-04-19T15:52:38Z
Available date
dc.date.available
2023-04-19T15:52:38Z
Publication date
dc.date.issued
2023
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/192888
Abstract
dc.description.abstract
En la música popular, los dispositivos que amplifican y/o alteran las señales de audio obtenidas desde los instrumentos son fundamentales y entendidos como parte de la creación musical. Por ejemplo, en el caso de la guitarra eléctrica, existe una gran variedad de efectos de audio y amplificadores que colorean y transforman el sonido para dar un carácter único al artista. Estos dispositivos, implementados en la forma de circuitos electrónicos, suelen ser costosos, delicados y difíciles de transportar. Esta investigación se enmarca en el modelamiento de estos dispositivos sobre señales de audio.
Efectos no lineales de distorsión como el overdrive y el fuzz son difíciles de modelar mediante ecuaciones explícitas, pero en los últimos años se han desarrollado modelos basados en Deep Learning que han mostrado resultados prometedores, pero a un costo computacional que complica el poder implementar los modelos como una herramienta en tiempo real. El objetivo de esta investigación es reducir los tiempos de inferencia de los métodos anteriores, entendiendo que una baja latencia de respuesta es fundamental para su uso en escenarios realistas. Se emplean técnicas de Knowledge Distillation (KD), que apuntan a obtener modelos más simples y rápidos a partir de modelos complejos ya entrenados. Se considera tanto el escenario en que se dispone de los datos de entrenamiento como en el que no.
Se realiza una serie de experimentos que considera los modelos del estado del arte y los dos casos posibles recién enunciados. Los resultados obtenidos muestran que sí es posible obtener modelos que introducen una menor latencia en inferencia aplicando KD desde modelos más grandes. Si bien los modelos destilados presentan un desempeño inferior al modelo completo, obtienen mejores resultados que los que se logran entrenando la arquitectura simple sin las técnicas de KD. Cabe destacar que en uno de los experimentos realizados se logra obtener un modelo más rápido, liviano y preciso que el modelo completo desde el cual se le aplica KD, proponiendo un nuevo estado del arte para el modelamiento de efectos no lineales de audio bajo los 3 criterios mencionados.
es_ES
Patrocinador
dc.description.sponsorship
Fondecyt Regular N° 1210606
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States