Show simple item record

Professor Advisordc.contributor.advisorBecerra Yoma, Néstor 
Authordc.contributor.authorGuerrero Díaz, Sebastián Adolfo 
Staff editordc.contributor.editorFacultad de Ciencias Físicas y Matemáticas
Staff editordc.contributor.editorDepartamento de Ingeniería Eléctrica
Associate professordc.contributor.otherNovoa Ilic, José
Associate professordc.contributor.otherAzurdia Meza, César
Admission datedc.date.accessioned2016-04-15T14:54:50Z
Available datedc.date.available2016-04-15T14:54:50Z
Publication datedc.date.issued2015
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/137814
General notedc.descriptionIngeniero Civil Eléctrico
Abstractdc.description.abstractEn el marco de la línea de investigación: Interacción Humano Robot, el lenguaje es un candidato natural para la interacción con máquinas y robots. En particular las tecnologías de procesamiento y transmisión voz juegan un rol fundamental en lo que respecta al reconocimiento automático de la voz o \gls{ASR}, ya que como concepto entrega la habilidad de escuchar al momento de interaccionar con un robot.\\ El objetivo principal de esta memoria es implementar una aplicación para comandar a un \gls{PR2} a través de instrucciones por voz, utilizando arquitectura cliente-servidor mediante un micrófono como elemento para muestrear la señal de audio o comando enunciado por el usuario. \\ En el desarollo de la aplicación se crea una interfaz de interacción con el usuario que permite grabar audio usando HTML5/CSS/JS. Para el funcionamiento de la aplicación la comunicación con todos los servidores se realiza a través de \textit{socket} TCP/IP y el procesamiento de la señal de audio se realiza utilizando KALDI, estado del arte en \gls{ASR}. Luego de obtener el resultado de la transcripción de la elocución grabada por el usuario, es analizada por el \textit{Robot \gls{PR2}} y entrega la respuesta del comando de voz mediante el \gls{TTS} Festival y ejecuta el movimiento correspondiente al requerimiento del usuario.\\ A partir esta investigación y el desarrollo de la aplicación se concluye que es posible comandar el \textit{Robot \gls{PR2}} de forma exitosa mediante la interfaz de interacción con el usuario. Dicha aplicación puede ser instalada en cualquier versión del sistema operativo Ubuntu. Utilizando un modo de conexión local para los servidores: ASR y WEB, se cumple el objetivo de realizar procesamiento en tiempo real. El sistema de reconocimiento de voz obtiene un 10\% de \gls{WER} cuando es probado con el mismo micrófono con el que se construye la base de datos, que corresponde a un conjunto de 4991 elocuciones de base de datos Latino-4k y 200 elocuciones grabadas en el Laboratorio de Procesamiento y Transmisión de Voz LPTV, todas a una frecuencia de 16~kHz y 16~bit.\\ El trabajo futuro considera la realización de una base de datos independiente del hablante y género. Considerar el efecto del canal en el \gls{ASR}: ambiente y micrófonos. Debido a la forma de construcción de la aplicación, ésta es escalable ,por lo que es factible complementar el diccionario utilizado en el \gls{ASR} y la personalización de los movimientos.en_US
Lenguagedc.language.isoesen_US
Publisherdc.publisherUniversidad de Chileen_US
Type of licensedc.rightsAtribución-NoComercial-SinDerivadas 3.0 Chile*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/*
Keywordsdc.subjectReconocimiento automático de la vozen_US
Keywordsdc.subjectSistemas de procesamiento de la vozen_US
Keywordsdc.subjectProcesamiento de señales - Técnicas digitalesen_US
Keywordsdc.subjectRobóticaen_US
Títulodc.titleSistema interactivo por voz para robot PR2en_US
Document typedc.typeTesis


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Atribución-NoComercial-SinDerivadas 3.0 Chile
Except where otherwise noted, this item's license is described as Atribución-NoComercial-SinDerivadas 3.0 Chile