En un emocionante avance en el campo de la interfaz cerebro-computadora (BCI), científicos de UC Berkeley y UC San Francisco han logrado un gran progreso al permitir que personas con parálisis severa puedan comunicarse mediante un sistema que convierte las señales cerebrales en habla casi en tiempo real. Este desarrollo aborda uno de los mayores retos en la neuroprótesis del habla: el tiempo de respuesta entre el pensamiento y la expresión verbal.
La tecnología, que ha sido publicada en Nature Neuroscience, utiliza inteligencia artificial para decodificar las señales del cerebro y producir palabras de forma casi instantánea, brindando una fluidez en la expresión que permite a los usuarios comunicarse de manera continua, sin pausas significativas. Este estudio fue financiado por el Instituto Nacional sobre Sordera y Otros Trastornos de la Comunicación (NIDCD) de los Institutos Nacionales de Salud (NIH).
Un sistema que transforma pensamientos en palabras
“Nuestro sistema de transmisión utiliza algoritmos similares a los que emplean dispositivos como Alexa o Siri para decodificar señales cerebrales y producir habla casi tan rápido como se piensa”, comentó Gopala Anumanchipalli, co-investigador principal y profesor asistente en UC Berkeley. Este es el primer sistema que ha conseguido sintetizar discursos fluidos y continuos directamente desde datos neuronales.
Este innovador sistema es versátil y funciona con diferentes dispositivos, utilizando métodos no invasivos que miden la actividad muscular facial a través de sensores en la piel, así como sistemas más complejos que involucran electrodos colocados directamente en el cerebro. Kaylo Littlejohn, estudiante de doctorado y coautor del estudio, mencionó que el algoritmo puede adaptarse a diversas configuraciones de monitoreo cerebral, siempre que tenga acceso a señales fiables.
La neuroprótesis convierte la actividad neural del córtex motor cerebral, que controla el habla, en palabras, una vez que la persona ha formado el pensamiento y está lista para mover los músculos vocales. Para entrenar el sistema, un participante intentó hablar en silencio mientras los investigadores registraban su actividad cerebral. Los modelos de IA completaron los detalles faltantes, como los patrones sonoros, para generar el discurso.
Un aspecto notable de este avance es que el equipo utilizó la voz del participante antes de su lesión como referencia, garantizando que el resultado sonara familiar y personal. Anteriormente, los estudios mostraron un retraso de 8 segundos en la decodificación de frases completas, pero el nuevo método logra producir habla audible en menos de un segundo. Esta respuesta más rápida se acompaña de alta precisión, demostrando que la transmisión en tiempo real es posible sin sacrificar la calidad.
Para evaluar la flexibilidad, los investigadores sintetizaron palabras raras que no formaban parte del conjunto de entrenamiento del sistema, como las del alfabeto fonético de la OTAN (“Alpha”, “Bravo”, etc.). La tecnología funcionó de manera efectiva, indicando su potencial para un uso más amplio de vocabulario.
Edward Chang, investigador senior y neurocirujano en UCSF, subrayó las aplicaciones en el mundo real. “Esta innovación nos acerca a interfaces cerebro-computadora prácticas que pueden mejorar significativamente la comunicación para quienes tienen discapacidades severas del habla”, afirmó.
En futuras investigaciones, se buscará mejorar el tono emocional y la expresividad del habla, con el objetivo de reflejar cambios en el tono, volumen y emoción, haciendo que la salida sea más realista. Con más refinamientos, esta tecnología podría transformar las opciones de comunicación para personas que no pueden hablar.