About
Contact
Help
Sending publications
How to publish
Advanced Search
View Item 
  •   Home
  • Facultad de Ciencias Físicas y Matemáticas
  • Tesis Pregrado
  • View Item
  •   Home
  • Facultad de Ciencias Físicas y Matemáticas
  • Tesis Pregrado
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Browse byCommunities and CollectionsDateAuthorsTitlesSubjectsThis CollectionDateAuthorsTitlesSubjects

My Account

Login to my accountRegister
Biblioteca Digital - Universidad de Chile
Revistas Chilenas
Repositorios Latinoamericanos
Tesis LatinoAmericanas
Tesis chilenas
Related linksRegistry of Open Access RepositoriesOpenDOARGoogle scholarCOREBASE
My Account
Login to my accountRegister

Conversión de Texto a Voz Mediante Reglas y Redes Neuronales: Traducción de Texto a fonemas más acentuación y puntuación

Tesis
Thumbnail
Open/Download
Iconsmith_r.pdf (677.9Kb)
Date
2009
Metadata
Show full item record
Cómo citar
Pérez Flores, Claudio
Cómo citar
Conversión de Texto a Voz Mediante Reglas y Redes Neuronales: Traducción de Texto a fonemas más acentuación y puntuación
.
Copiar
Cerrar

Author
  • Smith Torres, Roberto Ignacio;
Professor Advisor
  • Pérez Flores, Claudio;
Abstract
Para facilitar el acceso de las personas no-videntes al contenido de un texto se han desarrollado diversos sistemas, tanto mecánicos como electrónicos. De todos ellos, los lectores computarizados de textos han demostrado presentar mayores ventajas en cuanto a su facilidad de uso, cobertura, costo y calidad. Además, permiten el acceso directo a textos de publicación periódica, como diarios o páginas web. Los de mejor calidad de síntesis descomponen el problema de generación de voz en etapas sucesivas para resolver problemas como: acentuación, conversión de texto a fonemas, puntuación,incorporación de entonación, y síntesis de voz. En particular, para las etapas de acentuación y conversión de texto a fonemas, se han utilizado varias metodologías como: redes neuronales, reglas por defecto, pronunciación por analogía y análisis morfológico. En esta memoria se desarrollaron dos métodos alternativos para la conversión de texto a fonemas: redes neuronales y reglas por defecto. Existe un sistema llamado NETtalk en el que se desarrolló un método de conversión de texto a fonemas para el idioma inglés, que utiliza redes neuronales de tipo perceptrón demúltiples capas. En este trabajo de título se realizó una adaptación de NETtalk para conversión de texto a fonemas más acentuación en el español hablado en Chile. Se usaron tres arquitecturas de red: traducción a fonemas, traducción más acentuación, y sólo acentuación. Se elaboraron conjuntos para entrenamiento, validación y prueba, utilizando para ello criterios basados en reglas fonéticas y ortográficas. El desempeño de la red que traduce texto a fonemas y acentúa, medido en el conjunto de prueba, fue 100% en traducción y 95,8% en acentuación. Se detectaron dos causas de error: conjunto de entrenamiento poco diverso y segmentos de palabras que se escriben igual pero tienen diferente acentuación. Para mejorar el desempeño de las redes se propone incorporar al conjunto de entrenamiento palabras con casos no contemplados y separar la traducción y la acentuación en redes especializadas. Se detectó empíricamente que las últimas 6 letras definen la vocal acentuada de cualquier palabra. Para la acentuación se propone usar una red que reciba esas 6 letras y codifique la posición del acento en la capa de salida. Para la traducción a fonemas, se propone usar una red que reciba 3 letras, que es la información necesaria para detectar el fonema mediante reglas. Alternativamente se desarrolló un método de conversión de texto a fonemas del español chileno más acentuación utilizando reglas fonéticas y ortográficas. El desempeño obtenido fue 100% en lostresconjuntosdepalabras,mejor que lo obtenido con redes neuronales. Se midió el tiempo requerido para traducir el conjunto de entrenamiento de 1491 palabras a fonemas más acentuación mediante reglas, en un computador Pentium II de 350MHz con 288 MB de RAM, y fue 0,11 segundos, mientras que la red neuronal demora 620 veces ese tiempo. Se desarrolló una aplicación en C como apoyo a la lectura de no-videntes, controlada íntegramente a través del teclado, llamada Asistente de Lectura, que convierte texto a fonemas con acentuación mediante reglas y redes neuronales. Para realizar síntesis de voz se utilizó un paquete de desarrollo de software para Windows 3.1 de Creative Labs. La aplicación permite abrir y traducir archivos de texto a fonemas, controlar la reproducción del texto y las características de la voz sintetizada. Al evaluar la calidad de síntesis con 10 usuarios se concluyó que la voz de español chileno presenta alta inteligibilidad pero es deficiente en naturalidad. Por ello se recomienda crear una nueva aplicación, utilizando las herramientas y estándares gratuitos para el diseño de conversores de texto a voz, y realizar un estudio detallado de las características fonéticas y prosódicas del español chileno para elaborar una base de datos de voz de buena calidad.
Identifier
URI: https://repositorio.uchile.cl/handle/2250/103409
Collections
  • Tesis Pregrado
xmlui.footer.title
31 participating institutions
More than 73,000 publications
More than 110,000 topics
More than 75,000 authors
Published in the repository
  • How to publish
  • Definitions
  • Copyright
  • Frequent questions
Documents
  • Dating Guide
  • Thesis authorization
  • Document authorization
  • How to prepare a thesis (PDF)
Services
  • Digital library
  • Chilean academic journals portal
  • Latin American Repository Network
  • Latin American theses
  • Chilean theses
Dirección de Servicios de Información y Bibliotecas (SISIB)
Universidad de Chile

© 2020 DSpace
  • Access my account