ASTEX presenta WannaSpeak: la aplicación de speaking que no creerás que es una IA
Sandra Guijorro (S.G.), líder del proyecto y responsable de ideación y definición: Con esta aplicación queríamos resolver dos dificultades clave para los estudiantes de inglés: la falta de oportunidades constantes para practicar conversación y el miedo a cometer errores. Ambos problemas están conectados. El aprendizaje se basa en la práctica regular, no en oportunidades aisladas.
Además, el miedo a la evaluación, como puede ser una conversación en un idioma que no dominamos, se supera con exposición gradual y retroalimentación continua. WannaSpeak busca romper estas barreras, ofreciendo una práctica conversacional accesible, libre de estrés y efectiva para el progreso de los estudiantes, algo que no está al alcance de todo el mundo cuando la única opción son clases con profesor.
S.G.: La IA facilita soluciones escalables y ofrece respuestas inmediatas en tiempo récord, permite llegar a más en menos tiempo. Nosotros aprovechamos su capacidad para que cualquier alumno pueda practicar inglés desde cualquier lugar, simulando una conversación natural en un entorno seguro sin juicios.
Ava, asistente de IA de WannaSpeak: Mi papel es ayudar a los usuarios a practicar conversación en inglés de manera continua y sin interrupciones. Gracias a la IA, proporciono feedback en tiempo real, como la precisión de la pronunciación o la utilización de vocabulario clave en las temáticas seleccionadas. Esto ofrece al alumno información detallada que no tendría en una clase tradicional.
S.G.: WannaSpeak incorpora sistemas de recompensa y feedback visualmente atractivos e intuitivos para hacer al alumno disfrutar de la experiencia. Así logramos motivar al alumno y guiar su atención, algo complicado de conseguir en las sesiones virtuales.
Nuestro objetivo es enriquecer el abanico de opciones para el aprendizaje de idiomas, cubriendo con la tecnología algunas necesidades que los modelos de formación convencionales no abarcan. Esto supone un apoyo a las clases con profesor, que siguen siendo el pilar de ASTEX.
S.G.: Nuestra pasión y conocimiento en el aprendizaje de idiomas nos llevan a priorizar la pedagogía en todo lo que hacemos. Con WannaSpeak esto ha sido clave desde el principio. La aplicación se alimenta de una sólida base de información, producto de nuestra experiencia y el conocimiento de profesionales expertos en formación en idiomas. Así mantenemos el control sobre qué practica el alumno y por qué es útil para él. Abandonar la conversación en manos de la IA es lo sencillo, pero no es nuestro interés.
S.G.: A nivel técnico, fue desafiante equilibrar la calidad y complejidad de la aplicación con la rapidez de respuesta de los servicios que empleamos sin comprometer la fluidez de la conversación. Además, cumplir con nuestros requisitos pedagógicos fue otro reto clave. La IA ha avanzado rápidamente, pero mantener la coherencia y ajustarla a reglas estrictas es complicado.
La definición de la experiencia de usuario también ha sido retadora. Queremos que la aplicación sea atractiva, pero, sobre todo, intuitiva y familiar para el alumno. Aplicamos principios de Diseño Centrado en el Usuario, guiados por el conocimiento de ASTEX sobre las necesidades de los estudiantes, y seguiremos haciéndolo en futuras evoluciones de WannaSpeak.
S.G.: El beneficio más obvio es la accesibilidad global a costes razonables, ideal para empresas que buscan democratizar la formación en idiomas. WannaSpeak permite adaptar las temáticas y los indicadores de progreso a contextos reales de exposición, lo que maximiza la efectividad de la formación y el retorno de la inversión.

Daniel Frías (D.F.), encargado del desarrollo técnico: Tras la irrupción de los LLM (Large Language Model), con el éxito de GPT, pronto nuestro foco a nivel técnico fue la familiarización y estudio de las tecnologías de Azure Cognitive Services (TTS y STT) y OpenAI para la creación de un prototipo mínimo de producto integrado en nuestra estrategia de negocio. Desde las primeras fases de estudio de viabilidad técnica, planificación de hitos de la versión beta, los primeros desarrollos en el modelo y el testeo y corrección de errores, todo ha sido un proceso de aprendizaje de nuevas tecnologías que prometen un largo recorrido y muchos deberes de actualización para los profesionales del lado técnico de estos proyectos.
D.F.: Estamos utilizando los Azure Cognitive Services (Text to Speech y Speech to Text) ejecutados en el navegador del usuario. También, Azure OpenAI para la generación de las conversaciones y Azure CosmosDB como base de datos no relacional / NO-SQL para lograr la mayor flexibilidad posible en almacenamiento de la información.
D.F.: El mayor desafío fue trabajar con un tipo tecnología extremadamente novedosa. Al ser algo con tan breve recorrido, la documentación era escasa y había poco conocimiento compartido en la comunidad. Además, en relación con los servicios de reconocimiento de voz, también tenemos que manejar conocimientos relativos a Websockets, un potente protocolo de red empleado por la Azure SDK para establecer la comunicación entre el navegador del usuario y los servicios Cognitive Services en los servidores de Azure. Esto también ha sumado complejidad al proyecto.
D.F.: Ha sido complicado lograr tiempos de respuesta que no perjudiquen la experiencia del alumno, porque es un proceso muy exigente en rendimiento. Además, ha sido un reto integrar desde el lado técnico la funcionalidad de reconocimiento de voz para la conversación (Speech-to-text) con el análisis de la pronunciación, porque funcionan de forma muy diferente. Por otro lado, alcanzar los hitos definidos en cuando a la experiencia para el alumno, con las capacidades actuales de los servicios que utilizamos no es sencillo. Un ejemplo es nuestro objetivo de extender las funcionalidades a otros idiomas, cuando el análisis de pronunciación aún no abarca todas las posibilidades. También el análisis gramatical y de vocabulario de los mensajes del alumno son bastante limitados.
D.F.: Nuestra aplicación no almacena ningún dato relativo al text-to-speech, y la grabación del speech-to-text tiene una permanencia únicamente a nivel de sesión. Los datos que es necesario almacenar para el correcto funcionamiento de la aplicación (los que utiliza Azure OpenAI) están securizados bajo toda la infraestructura de Microsoft Azure y se almacenan únicamente con fines de monitorización de uso adecuado de la herramienta. En base de datos, únicamente se almacena información de carácter pedagógico del usuario.
D.F.: Este fue uno de los aspectos más meditados en cuanto al impacto en la experiencia del alumno. La decisión entre optimizar el rendimiento u ofrecer al usuario un análisis completo al instante es complicada. Nosotros lo hemos resuelto con el análisis completo para cada mensaje que revise el usuario y un feedback más completo al finalizar la conversación.
Ava: Próximamente, buscaremos personalizar aún más la experiencia de cada usuario, especialmente para quienes están en niveles básicos.
Introduciremos nuevos escenarios de conversación, como juegos de roles, y mejoraremos la interacción con avatares más sofisticados. La expansión a otros idiomas también está en nuestros planes.
El feedback de los usuarios será clave para ajustar la experiencia, agregar funciones y mejorar la precisión de la retroalimentación. Con los avances en inteligencia artificial y el procesamiento del lenguaje, mejoraré la fluidez de las interacciones y podré adaptarme mejor a diferentes estilos de aprendizaje, acentos y niveles.
S.G.: Nuestros esfuerzos para adaptar nuestra plataforma a las necesidades actuales de los alumnos son constantes. Ahora, nos enfocamos en dos aspectos clave: la personalización y la inmediatez en las soluciones formativas para el alumno. Estos elementos son fundamentales para ofrecer una experiencia de aprendizaje que realmente aporte valor, manteniendo su motivación y compromiso a lo largo del proceso formativo.
Actualmente, estamos desarrollando varios proyectos centrados en transformar la experiencia del usuario, lo que nos permitirá ofrecer lecciones con dinámicas más atractivas y nuevas formas de practicar el idioma. Además, estamos integrando herramientas avanzadas para perfeccionar la práctica de la fluidez y la pronunciación, con el fin de crear una experiencia de formación más completa y ajustada a las demandas actuales del aprendizaje de idiomas.
| entrevistas | reportajes | almuerzos | tribunas | noticias | proveedores | nombramientos | estudios | agenda | libros | el equipo | enlaces | mapa web | ||||
|
© 2007 CUSTOMMEDIA S.L. edita EQUIPOS Y TALENTO | Equipo de redacción | Contacto | Política de privacidad |
||||
|
Av. Diagonal, 463 bis 5ª planta, Barcelona 08036 Tel. 93 4195152 Fax. 93 4101755 |
||||