VapiCon 2025 fue el primer gran summit enfocado 100% en la voz y la inteligencia artificial, congregando a más de 800 especialistas en San Francisco. Llamada IP estuvo presente.
San Francisco fue sede de VapiCon 2025, el primer gran encuentro mundial dedicado exclusivamente a la Voice AI (voz e inteligencia artificial). Con asistentes de todo el mundo y entradas completamente agotadas, el evento logró reunir a alrededor de 850 participantes entusiastas durante una jornada intensa.
De hecho, VapiCon 2025 se convirtió en el mayor evento de IA de voz hasta la fecha, según comentaban muchos de los presentes, y dejó en claro que la comunidad de voz IA está creciendo rápidamente: se estima que hoy existen del orden de 500 a 1000 startups enfocadas en voz a nivel global, respaldadas por más de US$2.000 millones de inversión desde 2024.
Líderes de empresas pioneras como OpenAI, Deepgram, AssemblyAI y la propia Vapi estuvieron entre los oradores principales, compartiendo el estado del arte de la tecnología de voz y su visión sobre lo que viene en el horizonte.
En esta nota resumimos los puntos más destacados y tendencias que dejó VapiCon 2025.
Tendencias técnicas destacadas en Voice AI
Durante las conferencias y paneles, surgieron varios temas técnicos clave que marcaron tendencia en el summit.
Interrupción vs. latencia
Uno de los grandes desafíos en agentes de voz es lograr un turn-taking natural. Si el agente responde demasiado rápido, puede interrumpir al usuario; pero si demora demasiado, se percibe un retardo incómodo.
Encontrar el punto justo en la detección de pausas y cambios de turno resultó crítico para generar conversaciones fluidas y confiables. Este equilibrio entre no cortar al hablante y evitar lags fue mencionado repetidamente como una pieza clave para la adopción exitosa de la voz IA.
Memoria y contexto
Se destacó la diferencia entre una IA de voz que solo “responde” y otra que realmente “entiende”. La próxima generación de agentes conversacionales integrará memoria de corto y largo plazo, permitiéndoles recordar contextos previos de la conversación o incluso datos de interacciones pasadas.
Esto llevará a diálogos más coherentes y personalizados, donde el agente demuestra comprensión del contexto más allá de una sola pregunta-respuesta. La capacidad de mantener contexto conversacional continuo es vista como un salto cualitativo para que la IA “piense” antes de hablar, acercándose más a una interacción humana real.
Ruido y multilenguaje
Varios ponentes mostraron avances en robustez del reconocimiento de voz. Hoy es posible transcribir y entender voces en entornos con ruido de fondo, distintos acentos e incluso con varios hablantes hablando simultáneamente.
La empresa Speechmatics, por ejemplo, realizó una demostración en vivo impresionando al público al transcribir en tiempo real una conversación caótica con múltiples interlocutores y ruido ambiental, identificando correctamente quién dijo qué. Este progreso en separación de hablantes y manejo de audio complejo implica que los agentes de voz podrán desenvolverse mejor en escenarios del mundo real (call centers, conferencias, lugares públicos), donde las condiciones distan de ser ideales.
Observabilidad total
Un tema novedoso fue la observabilidad aplicada a las interacciones de voz. Ya no se trata solo de grabar llamadas, sino de tener trazabilidad técnica detallada de cada paso que ocurre durante una conversación con la IA. Herramientas como Langfuse mostraron cómo es posible registrar y visualizar el flujo completo de una llamada atendida por un agente de voz: desde la captura de audio y la transcripción, pasando por las consultas al modelo de lenguaje, hasta la síntesis final de respuesta.
Esta “caja negra” ahora abierta permite entender qué sucedió en cada turno de la conversación, diagnosticar errores (por ejemplo, por qué una IA respondió algo fuera de lugar) y mejorar iterativamente la experiencia. La observabilidad aporta transparencia y confianza, especialmente para implementaciones empresariales que requieren monitorear la calidad y cumplimiento de sus agentes conversacionales.
Arquitectura del futuro
Se discutió cómo podrían diseñarse los sistemas de voz IA de próxima generación. Una de las visiones es combinar modelos frontera (frontier models) muy grandes, aquellos de última generación en comprensión y generación de lenguaje, con modelos especializados en razonamiento o tareas específicas.
La idea es orquestar múltiples motores y servicios para aprovechar lo mejor de cada uno: por ejemplo, usar el ASR de un proveedor líder (como Deepgram), un motor de NLU/LLM de OpenAI u otros, TTS ultra realista de servicios como Play.ht, y conectividad de telefonía vía plataformas como Twilio o Telnyx, todo coordinado en tiempo real.
Este enfoque modular permitiría que un agente de voz aproveche varios “cerebros” a la vez, según lo que necesite en cada momento (transcripción, comprensión, razonamiento lógico, respuesta hablada, etc.).
También se debatió la aparición de modelos speech-to-speech (S2S) directos, que prometen convertir voz en voz (sin pasar por texto intermedio) y cómo en el futuro podrían simplificar la arquitectura. Por ahora, la mayoría de implementaciones aún siguen el enfoque cascada clásico (voz a texto + LLM + texto a voz) por su confiabilidad.
En síntesis, la arquitectura de la voz IA tiende a ser híbrida: aprovechar múltiples herramientas especializadas en un mismo flujo conversacional para lograr naturalidad y eficacia.
Baja latencia y edge computing
Para que la experiencia de hablar con una IA sea cómoda y se sienta natural, la latencia debe ser mínima. En VapiCon se subrayó la meta de conseguir tiempos de respuesta inferiores a 500 milisegundos, lo cual es asombrosamente rápido para los estándares actuales. Alcanzar ese sub-500ms de punta a punta requerirá desplegar componentes en el borde de la red (edge), muy cerca del usuario o de la fuente de la voz, reduciendo retrasos de transmisión.
Varios panelistas hablaron de optimizaciones extremas, infraestructuras distribuidas y aseguramiento de servicio con uptime de 99,99%, todo para que un usuario no perciba prácticamente demora entre que habla y la IA le responde. La baja latencia es especialmente crítica en voz: incluso pausas de medio segundo pueden romper la ilusión de estar conversando con un ser inteligente presente. Gracias a nuevas técnicas y a potentes infraestructuras, el objetivo de respuestas en tiempo casi real está cada vez más cerca de lograrse.
Las charlas de VapiCon mostraron que hay un esfuerzo multidisciplinario para cerrar la brecha entre lo que la IA de voz puede hacer hoy y la experiencia conversacional ideal que se busca alcanzar.
Impacto comercial y el futuro del canal de voz
Más allá de la tecnología, VapiCon 2025 dejó claro que el canal de voz está a punto de explotar en adopción comercial. En diversos paneles se discutieron casos de uso emergentes y oportunidades de negocio que la voz impulsada por IA habilita o transforma.
Entre las aplicaciones destacadas se mencionaron:
- Atención al cliente y soporte técnico: agentes virtuales capaces de atender llamadas de soporte 24/7, descongestionando call centers humanos. Las empresas ven la oportunidad de mejorar la experiencia del cliente (tiempos de respuesta inmediatos, cero tiempo en espera) a la vez que reducen costos operativos.
- Gestión de turnos y reservas: ya existen pilotos donde una IA atiende el teléfono de un consultorio y coordina turnos o reservas de manera eficiente, entendiendo fechas, horarios y preferencias del cliente.
- Educación y capacitación: tutores virtuales por voz que puedan enseñar idiomas, ayudar con tareas o entrenar a empleados en simulaciones de conversación.
- Servicios financieros y ventas: lead qualification o asesoría financiera inicial mediante IAs de voz que realicen llamadas salientes o reciban entrantes, capaces de explicar productos, responder preguntas frecuentes e incluso detectar la intención de compra o el interés del cliente por tono de voz.
- Compañía y bienestar: agentes conversacionales diseñados para brindar compañía a personas mayores o asistencia a quienes se sienten solos, conversando amigablemente, contando historias, recordando medicación o simplemente escuchando.
En los próximos meses se espera un salto enorme en la naturalidad y sofisticación de las interacciones. De hecho, algunas métricas compartidas reflejan la aceleración del sector: actualmente los agentes de voz de IA ya gestionan alrededor de 3 mil millones de minutos de conversación por mes, y esa cifra podría dispararse a 100 mil millones de minutos mensuales para el próximo VapiCon si los principales retos técnicos logran resolverse.
No es de extrañar que haya un fuerte interés comercial: la voz IA promete revolucionar múltiples industrias, y las empresas que logren dominarla a tiempo podrían ganar una ventaja significativa en sus mercados.
LLAMADA IP: conectando la telefonía de LATAM con la IA de voz
Nacho Ribeiro, CEO de LLAMADA IP SRL, estuvo presente en VapiCon 2025 representando a nuestra empresa y aportando la perspectiva de nuestra región.
LLAMADA IP se posiciona como el puente que conecta el mundo de la telefonía tradicional con los modernos agentes de voz impulsados por IA. En el evento, Ribeiro compartió la propuesta de valor de LLAMADA IP: habilitar que usuarios y empresas de Latinoamérica puedan conversar con una IA como si estuviera al lado, a través de una simple llamada telefónica.
Esto es posible gracias a la infraestructura de LLAMADA IP, que ofrece transferencias inteligentes entre agentes humanos y virtuales. En términos simples, permite integrar cualquier plataforma de Voice AI con el sistema telefónico convencional, asegurando que la experiencia sea fluida y sin demoras, incluso cuando la IA conversacional está alojada en la nube o en otro continente.
Gracias a estos desarrollos, un cliente en cualquier país de Latinoamérica puede interactuar vía voz con un asistente inteligente alojado en la nube global, obteniendo respuestas inmediatas y precisas.
Así, VapiCon 2025 demostró que la voz se está consolidando como la próxima gran interfaz en la interacción hombre-máquina. Lejos de ser un simple complemento, la voz IA está ganando un protagonismo central gracias a avances rápidos en todas sus dimensiones: desde mejores algoritmos de reconocimiento y síntesis, hasta arquitecturas más inteligentes y casos de uso de alto valor comercial.
Como se comentó en la conferencia, el futuro de la IA no solo se escribirá, sino que se hablará.

