Con la tecnología de Blogger.
RSS

El Problema del Rah


La gran dificultad de estos sistemas es determinar cuáles pueden ser las causas que hacen tan difícil realizar un reconocimiento automático del habla, de forma que se pueda encontrar una solución global lo más óptima posible. Algunas de las causas son:
  • Las variaciones de fonación, debidas a los hablantes. Cada persona pronuncia de forma diferente, ninguna persona habla igual, es decir, no suenan igual los sonidos generados por distintas personas, aunque mantienen ciertas relaciones formánticas, no son copias idénticas.
  • Las ambigüedades acústicas. En algunas ocasiones, la misma señal acústica recibida se puede ajustar a dos patrones diferentes, esto se refiere a palabras que se pronuncian igual pero se escriben de forma distinta (vaca y baca).
  • Variaciones de producción y que le desvían del registro teórico ideal, como puede ser:
  • Falta de cuidado al pronunciar algunas palabras. En algunas ocasiones se omiten palabras de breve duración o se combinan con otras, originando sonidos extraños. También se suele producir cuando el hablante adquiere demasiada velocidad al pronunciar las palabras, provocando que la transición entre las diferentes silabas no sea lo suficientemente clara, llegando a la fusión u omisión de alguna palabra.
  • Variacion en la pronunciación. A lo largo del tiempo se van produciendo diferentes formas de pronunciación, lo que produce un alejamiento de los patrones o reglas utilizadas durante el reconocimiento.
  • Coarticulación. La señal acústica recibida se ve afectada debido al contexto en el que se encuentra. Debido a esto es necesario disponer de diferentes patrones que consideren estas posibiles variaciones.
  • Variaciones de tiempo. La duración de la pronunciación de una palabra no tiene un tiempo determinado, sino que depende del emisor, con la rapidez que hable, debido a esto la comparación entre los patrones puede verse afectada por lo que hay que tenerla en cuenta antes de comparar.
  • Ruidos e interferencias. Las personas somos capaces de reconocer habla en condiciones desfavorables, es decir, en las que existen una baja reación señal/ruido, e incluso si existen otros sonidos interfiriendo. Esto se debe a las características del oído humano.
Debido a los problemas anteriormente descritos, la tarea de reconocimiento automático de habla tiene que tomar decisiones, incluso a pesar de la falta de información, sabiendo que todas las decisiones que tome influirán en las siguientes. El hecho de tomar decisiones repercute gravemente en el sistema total, ya que además de tener que utilizar alguna técnica para que tome estas decisiones es necesaria alguna técnica de corrección de errores, ya que no todas las decisiones tomadas serán correctas.
Para minimizar la probabilidad de cometer errores podemos utilizar “La Teoría de la Decisión Estadística”, la cual consiste en valorar distintas secuencias de palabras y tomar como válida la que tenga mayor probabilidad de estar asociada a la secuencia acústica de entrada. Con el fin de minimizar el problema también se puede emplear el “Teorema de Bayes” sobre la probabilidad condicional, de forma que el problema anterior se puede volver a escribir de modo que la búsqueda de la secuencia de palabras se conviertan en un problema de buscar la secuencia de palabras que producen un máximo de probabilidad a priori y que además, producen la secuencia de observaciones con máxima probabilidad. De esta forma el problema está dividido en dos, un problema de decodificación lingüística y otro de decodificación acústica.

  • Digg
  • Del.icio.us
  • StumbleUpon
  • Reddit
  • RSS

0 comentarios:

Publicar un comentario