Hablar con su smartphone se ha convertido en una actividad habitual. Y un gran número de sistemas de reconocimiento de voz demuestran ser muy eficaces. No obstante, el desarrollo que llevó a la comprensión de la voz humana se ha prolongado por décadas.
El reconocimiento de voz se ha establecido como un servicio frecuente en numerosos ámbitos de actividad:
- Cada uno de nosotros lo utiliza para interactuar con su smartphone o con aplicaciones;
- Al concluir una consulta médica, generalmente el médico recurre a esta tecnología para dictar su informe;
- Usualmente es así como verificamos el saldo de nuestra cuenta bancaria;
- etc.
Si bien esta tecnología se ha integrado en nuestro día a día, tuvieron que transcurrir varias décadas antes de que alcanzara un nivel de calidad satisfactorio.
Breve historia del reconocimiento de voz
¡El reconocimiento de voz se sustenta en más de 70 años de investigación científica! Los primeros avances en este campo se remontan a principios de los años 50.
Audrey
En 1952, surge Audrey, el primer sistema de reconocimiento de voz en los laboratorios Bell. Capaz de identificar los números del 0 al 9, pronunciados individualmente, con una efectividad del 99%. No obstante, este porcentaje del 99% se alcanza únicamente cuando el inventor de Audrey interactúa. Con otros usuarios, la efectividad varía entre el 70 y el 80%. Desde el comienzo, se revela un aspecto crítico de la problemática: la voz humana es diversa. Cada persona tiene su propia manera de expresarse y, por ende, el desafío del reconocimiento de voz es intrínsecamente complejo.
Shoebox
Diez años después, en abril de 1962 durante una exposición mundial, IBM presenta Shoebox, una calculadora operada por voz. Este dispositivo, creado por William C. Dersch en San José (California), reconoce los números del 0 al 9 al igual que Audrey, pero también dieciséis palabras en inglés que corresponden a términos aritméticos básicos: «plus», «minus», «total»…
Harpy
A inicios de los años 70, impulsado por la agencia de defensa estadounidense DARPA, se introduce el sistema Harpy de la Universidad Carnegie Mellon. Harpy logra identificar con precisión 1011 palabras, equivalente a la capacidad de un niño de tres años. Representa un pequeño triunfo y desencadena una ola de entusiasmo por la investigación en reconocimiento de voz.
Tangora
Hasta ese momento, se había utilizado la detección de fonemas para reconstruir las palabras. Desde los años 80, el reconocimiento de voz adopta enfoques innovadores, incluyendo modelos estadísticos. En esta línea se desarrolló Tangora de IBM, que intenta predecir qué palabras vendrán a continuación basándose en el análisis previo. Tangora requiere alrededor de veinte minutos de entrenamiento, tras los cuales es capaz de reconocer 20 000 palabras y también frases completas.
Dragon Naturally Speaking
En 1997, la empresa Nuance lanza su software Dragon Professional, marcando un gran avance. Este programa necesita varias horas de entrenamiento, pero una vez finalizado, una persona puede hablar libremente y no necesita teclear sus textos. Dragon es capaz de reconocer 100 palabras por minuto. Será adoptado por numerosos médicos y abogados. Como resultado, la edición XP de Windows que se lanza en 2001 incorpora una herramienta de reconocimiento de voz.
Google Voice Search / Google Assistant
Durante los años 2000, el procesamiento computacional de la voz se beneficia del aporte de la inteligencia artificial. Google Voice Search decide integrar algoritmos de aprendizaje automático con el empleo de servidores de alta capacidad. La aplicación se introduce en 2008 y representa un significativo progreso. Este producto, que evolucionaría a Google Assistant, aunque no se destaca tanto como se esperaba, abre paso a otra innovación que acapara la atención.
Siri
En 2011, Apple sorprende al anunciar que Siri, un asistente virtual capaz de comprender nuestros requerimientos, estará disponible en todos los nuevos iPhone. Representa un hito porque transforma el reconocimiento de voz en una herramienta de uso diario. Posteriormente, Alexa de Amazon y Cortana de Microsoft hacen su debut en 2014.
¿Cómo funciona el reconocimiento de voz?
Entonces, ¿cómo funciona hoy día una aplicación de reconocimiento de voz?
La captura del material sonoro se realiza a través de un micrófono que convierte las señales en impulsos eléctricos, los cuales son transformados a una señal analógica y luego traducidos a formato digital.
A partir de ahí, el aprendizaje automático toma la iniciativa. Realiza el emparejamiento de fonemas con unidades sintácticas, asocia las frecuencias sonoras descodificadas con palabras y luego infiere la secuencia de palabras más adecuada. El sistema emplea modelos de referencia para facilitar este procedimiento de identificación de las secuencias de palabras más probables. Las técnicas de procesamiento del lenguaje natural se ocupan de extraer la semántica: el programa de reconocimiento de voz se esfuerza por entender el significado de lo que se expresa.
De esta manera, podemos disfrutar de aplicaciones de dictado por voz o de interacción conversacional cada vez más cercanas a la realidad humana.