Clasificación de los Sistemas de Rah

12:32 |

Los sistemas de reconocimiento de voz se pueden clasificar atendiendo a los siguientes criterios:

Entrenabilidad: Indica si va a ser necesario o no entrenar al sistema para comenzar con su uso.
Dependencia del hablante: Va a determinar si el sistema es apto para funcionar con una única persona (en este caso se denomina dependiente del locutor) o por el contrario es apto para funcionar con cualquier persona(es independiente del locutor).Los sistemas independientes del locutor son sistemas con una mayor calidad, aunque sin embargo suelen ser más difíciles de llevar a cabo, y además presentan un precio más alto en el mercado.
Continuidad: Determina si el sistema está capacitado para reconocer un tipo de habla que se realice de forma continua(sistemas continuos) o por el contrario es necesario que el usuario realice paradas entre la pronunciación de cada una de las palabras, para que así el sistema las pueda reconocer. Los sistemas continuos y funcionan sobre un lenguaje en el que las palabras están conectadas, es decir, no están separadas por pausas. En general, los sistemas continuos van a ser más difíciles de desarrollar, ya que estos sistemas se ven afectados por la rapidez con la que se pronuncia el discurso; mientras más rápido se pronuncie una frase, más complejo va a ser detectar el inicio y el fin de una palabra en esa frase. Por el contrario, los sistemas discretos van a ser más fáciles de diseñar, ya que se realizan paros entre cada palabra; de esta forma, una palabra no se va a ver afectada por la forma en que se pronuncie otra palabra, por tanto va a ser más fácil encontrar el inicio y fin de cada una de las palabras en la frase, y en definitiva, va a ser más fácil realizar su reconocimiento.
Robustez: Determina si el diseño del sistema es apto o no para su funcionamiento en condiciones de ruido extremo.
Tamaño del dominio: Indica si el sistema puede llevar a cabo el reconocimiento de un lenguaje con un determinado tamaño de dominio. Existen sistemas con un vocabulario de tamaño reducido, y otros en cambio con vocabularios muy extensos. Podemos clasificar los vacabularios atendiendo a su tamaño en:

Vocabularios pequeños : Contienen decenas de palabras.
Vocabularios medianos : Contienen cientos de palabras.
Vocabularios grandes : Contienen miles de palabras.
Vocabularios muy grandes : Contienen decenas de miles de palabras.

Arquitectura: Según la arquitectura que tenga cada sistema de reconocimiento automático del habla, los vamos a poder clasificar en:

Sistemas de Arquitectura Integrada: Van a realizar el reconocimiento en una única etapa. Estos sistemas van a generar espacios de búsqueda más grandes que los sistemas de arquitectura no integrada, pero sin embargo van a tener una posibilidad más alta de encontrar una solución correcta.
Sistemas de Arquitectura no Integrada: Estos sistemas van a dividir el reconocimiento de una frase en 2 etapas: una primera etapa en la que se van a extraer una serie de sonidos a partir de la frase de entrada, y una segunda etapa que va a devolver aquellas frases que mejor se adapten a los sonidos obtenidos en la primera etapa. Estos sistemas generan espacios de búsqueda más pequeños que los sistemas de arquitectura integrada, pero su probabilidad de error a la hora de encontrar la solución correcta va a ser mayor.