Lara, el proyecto que da voz a quienes apenas pueden hablar: tres institutos alicantinos lideran esta iniciativa con IA
Tres institutos de Elche y Alicante lideran el proyecto Lara, que busca facilitar la comunicaciĂłn a quienes tienen problemas para hablar. Lo hacen mediante una aplicaciĂłn que transcribe y pronuncia sus palabras en tiempo real.
Lo que suena como una frase ininteligible se convierte en una voz clara que les permite expresarse.
AsĂ naciĂł este proyecto colaborativo que implica a 150 alumnos y docentes de tres centros:
CĂłmo funciona. Los estudiantes de los ciclos sanitarios y sociales contactan con usuarios con problemas del habla y graban cientos de audios con sus voces siguiendo un "sĂlabus", un corpus de frases fonĂ©ticamente balanceadas. "Ellos nos darĂan las voces y nosotros el conocimiento tecnolĂłgico", resume Medrano. Esos audios se alojan en una base de datos MongoDB y un bucket S3 de AWS.
Con esos audios, los alumnos del curso de IA entrenan modelos capaces de "aprender" a entender esas voces alteradas usando la arquitectura Whisper de OpenAI. Lo hacen en una GPU NVIDIA 4090. Un modelo personalizado para cada usuario funciona muy bien, pero el objetivo es lograr modelos genĂ©ricos por patologĂa. Y en el futuro, un Ășnico modelo general.
La demo en directo. La semana pasada los alumnos hicieron una demostración en el Centro de Congresos de Elche. Allà se vio materializado el esfuerzo de estos dos cursos, ya que dos usuarias de esta aplicación la usaron ante los asistentes. La aplicación permite al usuario grabar su voz, que se transcribe a texto y se traduce a una voz sintética clara.
Raquel, haciendo un enorme esfuerzo muscular para poder articular la frase, pronunciĂł "Me gusta silbar cuando llueve". Era muy complicado para cualquiera poco acostumbrado a escucharla poder entenderla, pero el sistema la detectĂł perfectamente.
Trabajo en progreso. El gran reto es recopilar suficientes audios para entrenar los algoritmos. En el primer curso del proyecto, el 22/23, solo tenĂan cuatro usuarios que les dieron unos 700 audios. Hoy son 75 usuarios y mĂĄs de 10.000 grabaciones, pero hacen falta mĂĄs.
Gracias a la colaboraciĂłn con una decena de asociaciones estĂĄn constituyendo un dataset Ășnico. "Ahora queremos agrupar bien a los usuarios por patologĂas, centrĂĄndonos en tres, aunque dependerĂĄ de la cantidad de usuarios que tengamos y de quĂ© patologĂa", explica Medrano.
El futuro. Los responsables del PIA sueñan con que alguna empresa adopte su soluciĂłn y la convierta en un producto real. "Esto no es un bien personal", explica Aitor. "A mĂ me encantarĂa que el dĂa de mañana una empresa coja Lara y lo desarrolle de verdad, y sea un producto Ăștil y que funcione bien".
Otras posibilidades que contempla es integrarlo como skill en Alexa o adaptar el modelo a una aplicaciĂłn que cada usuario se pueda instalar. Pero mantener los servidores y el desarrollo tiene un coste que un centro educativo no puede asumir indefinidamente.
De momento han conseguido hasta galardones, como el AcciĂłn Docente 10 al mejor proyecto de innovaciĂłn educativa. Seguro que llegarĂĄn mĂĄs.
En este blog 18 meses descifrando los ojos de Dulce
Imagen destacada IES Severo Ochoa de Elche
No hay comentarios.: