Con la tecnología de Blogger.
RSS

Diseño de un sistema de RAH

Los sistemas actuales de Reconocimiento Automático del Habla (RAH) se componen de varias etapas en las que se pueden utilizar distintos tipos de metodologías:



Los objetivos de la primera etapa son llevar a cabo la adquisición de la señal vocal y posteriormente extraer aquellas características que se consideren más importantes (Preproceso). Como resultado, a la salida de esta etapa se va a obtener una secuencia de vectores de características o cadenas de símbolos que pertenecerán a un determinado alfabeto. La segunda etapa tiene como objetivo el encontrar e identificar en la señal vocal segmentos de voz que guarden relación con algún patrón o unidad lingüística(fonemas, sílabas, palabras,...). Esta etapa es conocida como Decodificación Lingüística o Decodificación Acústico-Fonética, y su salida va a ser una o más secuencias de unidades lingüísticas que van a contener varios errores. La tercera etapa (Análisis) va a tener como principal objetivo realizar una interpretación de las secuencias de unidades lingüísticas obtenidas en la etapa anterior, corrigiendo los errores, y devolviendo sólo aquellas secuencias que se consideren correctas desde el punto de vista sintáctico y semántico.

Aprendizaje

Cada una de las etapas descritas requiere la existencia de una serie de modelos que deben ser construidos en una fase de aprendizaje. Este aprendizaje se puede llevar a cabo de forma deductiva e inductiva. El aprendizaje deductivo consiste en que una persona experta le transmita al sistema informático una serie de conocimientos. En este aspecto podemos poner como ejemplo los Sistemas Expertos. El aprendizaje inductivo consiste en que sea el propio sistema informático el que adquiera los conocimientos de forma automática, a partir de una serie de ejemplos reales. Serían ejemplos de este tipo de aprendizaje aquellos sistemas que se basan en los modelos ocultos de Markov o en las redes neuronales artificiales que se configuran de forma automática tomando como referencia una serie de ejemplos de aprendizaje.

Decodificador acústico-fonético

El decodificador acústico-fonético es originado por las fuentes de información léxica,fonética,acústica y fonológica, junto con una serie de procedimientos interpretativos. La entrada al decodificador acústico-fonético es la propia señal acústica representada mediante un vector de características, una vez que ésta ha pasado por la etapa de preproceso. A la hora de diseñar un decodificador acústico-fonético nos pueden surgir ciertos problemas para los cuales no existen soluciones que puedan solventarlos. Primeramente, está el problema de elegir cuáles son las unidades subléxicas que se consideran más idóneas.En la actualidad, las semisílabas y las sílabas pueden ser buenas soluciones, aunque las más utilizadas son ciertas unidades fonéticas.Y en segundo lugar, otro de los problemas que podemos tener a la hora de diseñar un decodificador acústico-fonético son el de la modelización y coarticulación de palabras cortas que pueden cambiar totalmente la interpretación de un mensaje acústico.

Modelo del lenguaje


El modelo del lenguaje va a estar formado por las fuentes de conocimiento sintácticas, pragmáticas y semántica. El objetivo va a ser realizar una correcta interpretación desde estos tres puntos de vista. Al igual que en el caso del decodificador acústico-fonético, a la hora de diseñar un modelo del lenguaje van a surgir una serie de problemas de difícil solución. Primero, hay que decir que en la actualidad, se tiende a que la sintaxis y la semántica estén integradas, lo cual representa un problema a la hora de representarlas. Esto se debe fundamentalmente a que los sistemas de reconocimiento del habla presentan grandes restricciones de tipo semántico y sintáctico, lo que implica que existan fuertes lazos de unión entre ambas. Las medidas principales que se están tomando al respecto provienen del campo de los lenguajes formales y del lenguaje natural. Y en segundo lugar, otros problemas son el uso del diálogo y la prosodia(acentos,tonos,entonación) entre la propia persona y el sistema de reconocimiento.

  • Digg
  • Del.icio.us
  • StumbleUpon
  • Reddit
  • RSS

1 comentarios:

Unknown dijo...

interesante informacion

Publicar un comentario