Reducción de Tiempos de inferencia en modelos de efectos de audio mediante técnicas de Knowledge Distillation

En la música popular, los dispositivos que amplifican y/o alteran las señales de audio obtenidas desde los instrumentos son fundamentales y entendidos como parte de la creación musical. Por ejemplo, en el caso de la guitarra eléctrica, existe una gran variedad de efectos de audio y amplificadores que colorean y transforman el sonido para dar un carácter único al artista. Estos dispositivos, implementados en la forma de circuitos electrónicos, suelen ser costosos, delicados y difíciles de transportar. Esta investigación se enmarca en el modelamiento de estos dispositivos sobre señales de audio. Efectos no lineales de distorsión como el overdrive y el fuzz son difíciles de modelar mediante ecuaciones explícitas, pero en los últimos años se han desarrollado modelos basados en Deep Learning que han mostrado resultados prometedores, pero a un costo computacional que complica el poder implementar los modelos como una herramienta en tiempo real. El objetivo de esta investigación es reducir los tiempos de inferencia de los métodos anteriores, entendiendo que una baja latencia de respuesta es fundamental para su uso en escenarios realistas. Se emplean técnicas de Knowledge Distillation (KD), que apuntan a obtener modelos más simples y rápidos a partir de modelos complejos ya entrenados. Se considera tanto el escenario en que se dispone de los datos de entrenamiento como en el que no. Se realiza una serie de experimentos que considera los modelos del estado del arte y los dos casos posibles recién enunciados. Los resultados obtenidos muestran que sí es posible obtener modelos que introducen una menor latencia en inferencia aplicando KD desde modelos más grandes. Si bien los modelos destilados presentan un desempeño inferior al modelo completo, obtienen mejores resultados que los que se logran entrenando la arquitectura simple sin las técnicas de KD. Cabe destacar que en uno de los experimentos realizados se logra obtener un modelo más rápido, liviano y preciso que el modelo completo desde el cual se le aplica KD, proponiendo un nuevo estado del arte para el modelamiento de efectos no lineales de audio bajo los 3 criterios mencionados.

xmlui.dri2xhtml.METS-1.0.item-notadetesis.item

Tesis para optar al grado de Magíster en Ciencia de Datos

Memoria para optar al título de Ingeniero Civil Eléctrico

Patrocinador

Fondecyt Regular N° 1210606

Identifier

URI: https://repositorio.uchile.cl/handle/2250/192888
DOI: 10.58011/49fx-jm07

Collections