Modelos estadísticos de entonación con funciones de bezier: aplicaciones a la conversión texto-voz

Escudero Mancebo, David

Modelos estadísticos de entonación con funciones de bezieraplicaciones a la conversión texto-voz

Escudero Mancebo, David

Dirigida per:

Valentín Cardeñoso Payo Director

Universitat de defensa: Universidad de Valladolid

Fecha de defensa: 18 de de novembre de 2002

Tribunal:

Antonio Bonafonte Cávez President/a
Inmaculada Hernáez Rioja Secretari/ària
Joaquim Llisterri Boix Vocal
Ricardo De Córdoba Herralde Vocal
Eduardo Rodríguez Banga Vocal

Departament:

Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)

Tipus: Tesi

Teseo: 96755 DIALNET

Resum

El objetivo de esta tesis es definir una metodología de modelado de entonación para sistemas conversores texto-voz. Se propone un método de obtención automática de modelos de entonación a partir de corpus. Para ello, se parametrizan los contornos de F0 en los grupos acentuales empleando funciones de Bézier. Se establecen clases de grupos acentuales de acuerdo a una serie de factores prosódicos preestablecidos. La distribución de los valores de los parámetros apra los grupos acentuales de un mismo tipo determina el modelo de entonación de dicho tipo de grupo acentual. Los modelos obtenidos representan la forma de los perfiles de F0 y la variabilidad de los mismos en cada clase o categoría de grupo acentual. Para generar entonación sintética se identifica la clase de grupo acentual y se simula la distribución estadística asociada al modelo de dicha clase. Este método ha sido empleado en conversión texto-voz, siendo los resultados de los tests objetivos comparables con los resultados obtenidos en otros trabajos similares del estado del arte. La metodología de modelado de entonación supone una forma original de afrontar el problema, que permite obtener representaciones cuantitativas de la entonación de un corpus.