Sandra Guijorro, Daniel Frías y Ava, de ASTEX

ASTEX presenta WannaSpeak: la aplicación de speaking que no creerás que es una IA

En una realidad donde las opciones para practicar idiomas evolucionan al ritmo de los avances en la inteligencia artificial, las principales barreras para los alumnos siguen siendo muy humanas: tiempo limitado, miedo a equivocarse y una motivación que necesita estímulos para mantenerse al nivel que requiere el compromiso. ASTEX, especialista en formación de idiomas para empresas, busca ayudar a superar estos desafíos con WannaSpeak, una aplicación que ofrece un entorno seguro para practicar conversación en inglés con IA sobre diversas temáticas de su contexto, mientras recibe una evaluación de su pronunciación y aprende nuevo vocabulario.

¿Qué necesidad en el aprendizaje de idiomas buscaban resolver?

Sandra Guijorro (S.G.), líder del proyecto y responsable de ideación y definición: Con esta aplicación queríamos resolver dos dificultades clave para los estudiantes de inglés: la falta de oportunidades constantes para practicar conversación y el miedo a cometer errores. Ambos problemas están conectados. El aprendizaje se basa en la práctica regular, no en oportunidades aisladas.

Además, el miedo a la evaluación, como puede ser una conversación en un idioma que no dominamos, se supera con exposición gradual y retroalimentación continua. WannaSpeak busca romper estas barreras, ofreciendo una práctica conversacional accesible, libre de estrés y efectiva para el progreso de los estudiantes, algo que no está al alcance de todo el mundo cuando la única opción son clases con profesor.

¿Por qué decidieron apoyarse en la inteligencia artificial en su solución?

S.G.: La IA facilita soluciones escalables y ofrece respuestas inmediatas en tiempo récord, permite llegar a más en menos tiempo. Nosotros aprovechamos su capacidad para que cualquier alumno pueda practicar inglés desde cualquier lugar, simulando una conversación natural en un entorno seguro sin juicios.

Ava, asistente de IA de WannaSpeak: Mi papel es ayudar a los usuarios a practicar conversación en inglés de manera continua y sin interrupciones. Gracias a la IA, proporciono feedback en tiempo real, como la precisión de la pronunciación o la utilización de vocabulario clave en las temáticas seleccionadas. Esto ofrece al alumno información detallada que no tendría en una clase tradicional.

S.G.: WannaSpeak incorpora sistemas de recompensa y feedback visualmente atractivos e intuitivos para hacer al alumno disfrutar de la experiencia. Así logramos motivar al alumno y guiar su atención, algo complicado de conseguir en las sesiones virtuales.

Nuestro objetivo es enriquecer el abanico de opciones para el aprendizaje de idiomas, cubriendo con la tecnología algunas necesidades que los modelos de formación convencionales no abarcan. Esto supone un apoyo a las clases con profesor, que siguen siendo el pilar de ASTEX.

WannaSpeak busca romper estas barreras, ofreciendo una práctica conversacional accesible, libre de estrés y efectiva para el progreso de los estudiantes

¿Cómo conviven la IA y los estándares pedagógicos en el aprendizaje de idiomas en su aplicación?

S.G.: Nuestra pasión y conocimiento en el aprendizaje de idiomas nos llevan a priorizar la pedagogía en todo lo que hacemos. Con WannaSpeak esto ha sido clave desde el principio. La aplicación se alimenta de una sólida base de información, producto de nuestra experiencia y el conocimiento de profesionales expertos en formación en idiomas. Así mantenemos el control sobre qué practica el alumno y por qué es útil para él. Abandonar la conversación en manos de la IA es lo sencillo, pero no es nuestro interés.

¿Cuáles fueron las principales barreras iniciales al llevar esta idea de la teoría a la práctica?

S.G.: A nivel técnico, fue desafiante equilibrar la calidad y complejidad de la aplicación con la rapidez de respuesta de los servicios que empleamos sin comprometer la fluidez de la conversación. Además, cumplir con nuestros requisitos pedagógicos fue otro reto clave. La IA ha avanzado rápidamente, pero mantener la coherencia y ajustarla a reglas estrictas es complicado.

La definición de la experiencia de usuario también ha sido retadora. Queremos que la aplicación sea atractiva, pero, sobre todo, intuitiva y familiar para el alumno. Aplicamos principios de Diseño Centrado en el Usuario, guiados por el conocimiento de ASTEX sobre las necesidades de los estudiantes, y seguiremos haciéndolo en futuras evoluciones de WannaSpeak.

¿Cómo influye la aplicación en el aprendizaje de idiomas a nivel empresarial? ¿Qué beneficios aporta para las empresas que la adopten?

S.G.: El beneficio más obvio es la accesibilidad global a costes razonables, ideal para empresas que buscan democratizar la formación en idiomas. WannaSpeak permite adaptar las temáticas y los indicadores de progreso a contextos reales de exposición, lo que maximiza la efectividad de la formación y el retorno de la inversión.

¿Cómo fue el proceso técnico de desarrollo de esta aplicación?

Daniel Frías (D.F.), encargado del desarrollo técnico: Tras la irrupción de los LLM (Large Language Model), con el éxito de GPT, pronto nuestro foco a nivel técnico fue la familiarización y estudio de las tecnologías de Azure Cognitive Services (TTS y STT) y OpenAI para la creación de un prototipo mínimo de producto integrado en nuestra estrategia de negocio. Desde las primeras fases de estudio de viabilidad técnica, planificación de hitos de la versión beta, los primeros desarrollos en el modelo y el testeo y corrección de errores, todo ha sido un proceso de aprendizaje de nuevas tecnologías que prometen un largo recorrido y muchos deberes de actualización para los profesionales del lado técnico de estos proyectos.

¿Qué tecnologías y frameworks se están utilizando?

D.F.: Estamos utilizando los Azure Cognitive Services (Text to Speech y Speech to Text) ejecutados en el navegador del usuario. También, Azure OpenAI para la generación de las conversaciones y Azure CosmosDB como base de datos no relacional / NO-SQL para lograr la mayor flexibilidad posible en almacenamiento de la información.

¿Cómo se implementó el reconocimiento de voz y qué desafíos técnicos enfrentaron al integrarlo?

D.F.: El mayor desafío fue trabajar con un tipo tecnología extremadamente novedosa. Al ser algo con tan breve recorrido, la documentación era escasa y había poco conocimiento compartido en la comunidad. Además, en relación con los servicios de reconocimiento de voz, también tenemos que manejar conocimientos relativos a Websockets, un potente protocolo de red empleado por la Azure SDK para establecer la comunicación entre el navegador del usuario y los servicios Cognitive Services en los servidores de Azure. Esto también ha sumado complejidad al proyecto.

¿Y qué retos técnicos encontraron al integrar la evaluación de pronunciación?

D.F.: Ha sido complicado lograr tiempos de respuesta que no perjudiquen la experiencia del alumno, porque es un proceso muy exigente en rendimiento. Además, ha sido un reto integrar desde el lado técnico la funcionalidad de reconocimiento de voz para la conversación (Speech-to-text) con el análisis de la pronunciación, porque funcionan de forma muy diferente. Por otro lado, alcanzar los hitos definidos en cuando a la experiencia para el alumno, con las capacidades actuales de los servicios que utilizamos no es sencillo. Un ejemplo es nuestro objetivo de extender las funcionalidades a otros idiomas, cuando el análisis de pronunciación aún no abarca todas las posibilidades. También el análisis gramatical y de vocabulario de los mensajes del alumno son bastante limitados.

Nuestro objetivo es enriquecer el abanico de opciones para el aprendizaje de idiomas, cubriendo con la tecnología necesidades que los modelos de formación convencionales no abarcan

¿Qué medidas de seguridad se tomaron para proteger los datos de los usuarios, especialmente al trabajar con reconocimiento de voz?

D.F.: Nuestra aplicación no almacena ningún dato relativo al text-to-speech, y la grabación del speech-to-text tiene una permanencia únicamente a nivel de sesión. Los datos que es necesario almacenar para el correcto funcionamiento de la aplicación (los que utiliza Azure OpenAI) están securizados bajo toda la infraestructura de Microsoft Azure y se almacenan únicamente con fines de monitorización de uso adecuado de la herramienta. En base de datos, únicamente se almacena información de carácter pedagógico del usuario.

¿Cómo se optimiza la aplicación para ofrecer respuestas en tiempo real sin comprometer la precisión en el análisis de la pronunciación?

D.F.: Este fue uno de los aspectos más meditados en cuanto al impacto en la experiencia del alumno. La decisión entre optimizar el rendimiento u ofrecer al usuario un análisis completo al instante es complicada. Nosotros lo hemos resuelto con el análisis completo para cada mensaje que revise el usuario y un feedback más completo al finalizar la conversación.

¿Cuáles son los próximos pasos para el desarrollo de WannaSpeak?

Ava: Próximamente, buscaremos personalizar aún más la experiencia de cada usuario, especialmente para quienes están en niveles básicos.

Introduciremos nuevos escenarios de conversación, como juegos de roles, y mejoraremos la interacción con avatares más sofisticados. La expansión a otros idiomas también está en nuestros planes.

El feedback de los usuarios será clave para ajustar la experiencia, agregar funciones y mejorar la precisión de la retroalimentación. Con los avances en inteligencia artificial y el procesamiento del lenguaje, mejoraré la fluidez de las interacciones y podré adaptarme mejor a diferentes estilos de aprendizaje, acentos y niveles.

Además de la aplicación de WannaSpeak, ¿Cuáles son sus próximos retos con la plataforma de formación de ASTEX?

S.G.: Nuestros esfuerzos para adaptar nuestra plataforma a las necesidades actuales de los alumnos son constantes. Ahora, nos enfocamos en dos aspectos clave: la personalización y la inmediatez en las soluciones formativas para el alumno. Estos elementos son fundamentales para ofrecer una experiencia de aprendizaje que realmente aporte valor, manteniendo su motivación y compromiso a lo largo del proceso formativo.

Actualmente, estamos desarrollando varios proyectos centrados en transformar la experiencia del usuario, lo que nos permitirá ofrecer lecciones con dinámicas más atractivas y nuevas formas de practicar el idioma. Además, estamos integrando herramientas avanzadas para perfeccionar la práctica de la fluidez y la pronunciación, con el fin de crear una experiencia de formación más completa y ajustada a las demandas actuales del aprendizaje de idiomas.

Compartir en:

Otras entrevistas del sector

27/04/2026 Óscar Sánchez Director Comercial de Ahorro y Previsión Social de La Mutua de los Ingenieros

24/04/2026 Susana de la Calle Strategic partner de BNP Paribas

24/04/2026 Carlos Duque Employee Benefits consultant de Aon

23/04/2026 David Tomàs Co-fundador de Cyberclick

23/04/2026 Adriana Toro District Manager de Adecco

22/04/2026 Del Excel a la inteligencia de datos: cómo RRHH se convierte en motor estratégico del negocio

22/04/2026 Microlearning: de tendencia a estándar estratégico en la formación corporativa

16/04/2026 Educa.Pro escala su plataforma SaaS con Google Cloud de la mano de Devoteam

14/04/2026 Marta Martínez Rodríguez Talent Acquisition Manager de ISPROX

08/04/2026 Finanzas y tecnología lideran la demanda global de oficinas y asumen los mayores costes

08/04/2026 Naturgy impulsa su canal comercial indirecto de la mano de Kiriom

01/04/2026 David Boixader CEO de Etalentum

VER TODAS LAS ENTREVISTAS >


entrevistas \| reportajes \| almuerzos \| tribunas \| noticias \| proveedores \| nombramientos \| estudios \| agenda \| libros \| el equipo \| enlaces \| mapa web

© 2007 CUSTOMMEDIA S.L. edita EQUIPOS Y TALENTO \| Equipo de redacción \| Contacto \| Política de privacidad
Av. Diagonal, 463 bis 5ª planta, Barcelona 08036 Tel. 93 4195152 Fax. 93 4101755