Historia de la síntesis de voz por computadora: de máquinas mecánicas a la IA conversacional

Desde los primeros experimentos mecánicos hasta GPT‑4o, la síntesis de voz evolucionó gracias a la IA, transformando cómo las máquinas hablan y entienden al ser humano.

La síntesis de voz combina la ingeniería, la lingüística y la inteligencia artificial para generar sonidos que imitan el habla humana. Durante más de dos siglos, científicos e ingenieros han construido dispositivos para reproducir la voz, desde máquinas mecánicas con fuelles hasta los asistentes digitales que hoy responden preguntas y conversan en tiempo real.

Esta nota recorre los hitos más relevantes de la sintetización de voz por computadora y sus sistemas asociados de reconocimiento del habla, destacando cómo la llegada de la inteligencia artificial (IA) ha impulsado este campo y permitido una experiencia cada vez más natural.

Primeros experimentos mecánicos (siglos XVIII-XIX)

Entre 1770 y 1780, el físico Christian Kratzenstein construyó modelos de las cavidades bucales humanas que podían reproducir las vocales. Poco después, el ingeniero húngaro Wolfgang von Kempelen presentó una máquina parlante con fuelle, cañas y una cavidad articulada que producía consonantes y vocales.

En 1837, Sir Charles Wheatstone mejoró la máquina de Kempelen e incorporó elementos como lengua y labios. Nuevos dispositivos, como la Euphonia de Joseph Faber (1857), permitieron articular frases completas. Estos artefactos no eran controlados por computadora, pero sentaron las bases al mostrar que el habla podía ser modelada mediante mecanismos físicos y control de formantes.

Electrónica temprana y reconocimiento del habla (1930-1970)

En 1939, Bell Labs presentó el Voder, un sintetizador controlado manualmente que generaba voces mediante diez barras que imitaban los resonadores vocales. El Vocoder, que procesaba señales electrónicas para reproducir componentes del habla, se convirtió en la base de muchos sistemas posteriores.

En 1952, el laboratorio Bell desarrolló Audrey, el primer sistema capaz de reconocer de forma electrónica los dígitos del 0 al 9, un hito inicial en el reconocimiento del habla. Una década más tarde, en 1962, el ingeniero de IBM William Dersch presentó el Shoebox, una calculadora capaz de reconocer diez dígitos y seis palabras de control (“más”, “menos”, “total”, etc.), exhibida en televisión y en la Feria Mundial de Seattle.

En 1968, el equipo de Noriko Umeda en la Universidad de Tokio desarrolló el primer sistema de text-to-speech (TTS) para inglés general. Y en 1961, investigadores de Bell Labs programaron un IBM 704 para cantar “Daisy Bell”, experimento que inspiró a Stanley Kubrick para la escena del computador HAL en 2001: Una odisea del espacio.

Surgimiento de dispositivos comerciales (1970-1990)

Entre 1976 y 1978 aparecieron las primeras calculadoras parlantes para personas con discapacidad visual y el proyecto Speak & Spell de Texas Instruments. Este dispositivo fue revolucionario porque hablaba con fluidez; los juguetes anteriores solo reproducían frases grabadas.

Su éxito internacional —comercializado como La Dictée Magique en Francia y Grillo Parlante en España— y su aparición en E.T. consolidaron la síntesis digital en el mercado.

El dispositivo pedía al usuario que deletreara palabras y respondía con frases sintéticas como “eso es correcto” o “eso es incorrecto”. Para producir esas voces, el sintetizador representaba cada palabra como una serie de fonemas de 25 milisegundos; dos osciladores generaban los sonidos básicos y un filtro digital modelaba los formantes. Texas Instruments usó un ordenador central para analizar grabaciones humanas y convertirlas en secuencias de fonemas; un locutor de radio de Dallas prestó su voz para codificar las muestras.

En los años 80, DECtalk proporcionó una voz sintetizada comprensible que se hizo famosa en los ordenadores personales. Sistemas de síntesis multilingüe desarrollados por Bell Labs permitieron crear voces en distintos idiomas.

En 1992, Toyota introdujo la primera navegación GPS asistida por voz en su modelo Celsior, marcando el inicio de la navegación hablada en automóviles.

Macintosh y el salto a la cultura popular

El 24 de enero de 1984, durante la presentación del Macintosh, Steve Jobs sorprendió al público cuando el ordenador habló por sí mismo usando el software Macintalk.

La voz sintética dijo: “Hola, soy Macintosh. ¡Qué maravilla salir de esa bolsa! Aunque no estoy acostumbrado a hablar en público, quiero compartir un axioma que pensé la primera vez que me encontré con un mainframe de IBM: ¡Nunca confíes en un ordenador que no puedas levantar!”

La demostración introdujo la síntesis de voz al gran público y aportó un toque humano a la informática personal.

Revolución de los asistentes virtuales (2010-2017)

→ Siri y el inicio de la era móvil

La empresa SRI International, fruto de un proyecto financiado por DARPA, desarrolló un asistente que se convirtió en Siri. Apple adquirió la start-up en 2010 y lanzó la app en febrero de ese año, incorporándola luego al iPhone 4S presentado en octubre de 2011. Fue el primer asistente virtual ampliamente disponible en un smartphone.

Siri permite buscar en Internet, realizar cálculos, reproducir música, gestionar llamadas, enviar mensajes o traducir idiomas. Aunque inicialmente usaba voces humanas (como Susan Bennett para el inglés estadounidense), Apple las reemplazó por modelos generados mediante aprendizaje profundo para lograr voces más naturales.

→ Google Now y Google Assistant

En 2012, Google lanzó Google Now, precursor del asistente conversacional. El 18 de mayo de 2016, en la conferencia Google I/O, presentó Google Assistant, descrito por Sundar Pichai como una experiencia “conversacional y bidireccional” que debía integrarse de forma ambiental en distintos dispositivos.

Se lanzó inicialmente con la app de mensajería Allo y el altavoz Google Nest, expandiéndose a Android en 2017.

→ Microsoft Cortana y Samsung Bixby

Cortana, de Microsoft, debutó en 2014 como parte de Windows Phone 8.1. Utilizaba el motor de búsqueda Bing y comprensión de lenguaje natural para asistir en recordatorios y búsquedas. Más tarde se integró en Windows 10.

Por su parte, Bixby, de Samsung, se presentó en marzo de 2017 como sucesora de S Voice, y en octubre lanzó Bixby 2.0, con un modelo conversacional avanzado y abierto a terceros.

→ El impacto de Amazon Echo y Alexa

Amazon comenzó a trabajar en un asistente de voz en 2011 bajo el nombre clave “Doppler”. En 2012 adquirió la empresa polaca Ivona, cuya tecnología se convirtió en la base del asistente Alexa.

El primer altavoz Echo se lanzó en 2014 y se agotó rápidamente. Alexa se destacó por su tono cálido y confiable, grabado por una actriz de GM Voices, y consolidó el mercado de los altavoces inteligentes. En 2019, Amazon anunció más de 100 millones de dispositivos vendidos, y en 2023 incorporó un modelo de lenguaje de gran tamaño (AlexaLLM) para mejorar la naturalidad de las conversaciones.

Avances en síntesis y reconocimiento mediante IA

Durante décadas, la síntesis de voz se basó en modelos de fonemas y formantes que producían voces robóticas. En los 2000, los sistemas estadísticos usaban modelos ocultos de Markov, pero el gran salto llegó en 2016, cuando DeepMind presentó WaveNet, una red neuronal capaz de generar directamente las formas de onda del sonido, produciendo voces mucho más naturales.

Modelos posteriores como Tacotron (2017) y FastSpeech (2019) combinaron redes de atención y transformadores para lograr síntesis de alta calidad en tiempo real.

En paralelo, el reconocimiento del habla avanzó con modelos como Whisper de OpenAI y DeepSpeech de Mozilla, que transcriben audio con precisión casi humana. Los asistentes modernos utilizan estos sistemas para convertir audio en texto, interpretar la intención del usuario y generar respuestas habladas.

Conversación en tiempo real: ChatGPT y la nueva generación

En septiembre de 2023, OpenAI anunció que ChatGPT podía “ver, escuchar y hablar”, integrando el sistema de reconocimiento Whisper y un modelo de texto a voz (TTS) para mantener conversaciones naturales. En mayo de 2024, la empresa presentó GPT-4o (omni), un modelo multimodal que procesa texto, imágenes y audio en una sola red, respondiendo en apenas 232 milisegundos en promedio.

A diferencia de los sistemas anteriores, integra reconocimiento, comprensión y síntesis en un solo modelo, reduciendo drásticamente la latencia.

De este modo, la historia de la síntesis de voz por computadora demuestra un camino de perseverancia y creatividad. Desde los dispositivos mecánicos de Kratzenstein y Kempelen hasta las voces generadas por GPT-4o, cada hito amplió la frontera de lo posible.
En el siglo XX surgieron el Voder, Audrey y el Shoebox; más tarde, la voz se integró en juguetes, navegadores y computadoras personales.

En la década de 2010, los asistentes como Siri, Google Assistant, Cortana, Alexa y Bixby popularizaron la interfaz hablada en smartphones y hogares. Hoy, gracias a la IA y a las redes neuronales, las voces sintéticas alcanzan un realismo sorprendente y los modelos multimodales permiten conversaciones en tiempo real.

En esencia, la historia de la síntesis de voz es la historia de cómo los humanos enseñamos a las máquinas a hablar… y a entendernos.

Notas relacionadas
Llamada IP renueva su sitio web: tu línea directa con la Inteligencia Artificial Generativa
La implementación masiva de la IA conversacional exige una infraestructura de voz robusta
¿Cuáles son las ventajas de la mensajería conversacional?