17/7/24

Sintetización de voz directamente desde las señales cerebrales

 


Debido a accidentes o problemas neurológicos, algunas personas pierden la capacidad de hablar. Esto no significa que dejen de ser capaces de crear una conversación en su cerebro sino que no pueden transmitir las señales necesarias para activar sus cuerdas vocales.

Un grupo de investigadores, liderados por Miguel Angrick de la Johns Hopkins University School of Medicine, en Baltimore, han desarrollado un implante cerebral capaz de detectar la actividad neuronal del cerebro durante una conversación y, mediante redes neuronales, interpretar qué quiere decir la persona para poder generar por síntesis electrónica la palabra.

Las interfaces cerebro-ordenador (BCI, Brain Computer Interface, en su terminología inglesa) han estado desarrollándose durante ya bastante tiempo y, poco a poco, van logrando éxitos impensables hace una década.

El estudio publicado se centra en el implante realizado a un paciente que sufría de esclerosis. Las señales, en este caso, se toman de las cortezas premotor, motor y somatosensorial de la persona. El experimento es modesto en el sentido de que distingue únicamente entre 6 palabras con las que se ha entrenado a la red neuronal pero, aún así, supone un importante avance para el paciente y demuestra que la comunicación es posible con un muy alto acierto en el descifrado de las señales eléctricas recibidas en el electroencefalógrafo y su sintetizado posterior en habla inteligible.

Sin sistemas de este tipo, en muchos pacientes, la única comunicación posible es mostrar secuencialmente a la persona palabras y que esta pueda aceptar una de ellas mediante un parpadeo de sus ojos, tarea lenta y frustrante. 

Adicionalmente, el nuevo sistema permite una generación que simula razonablemente la voz original y que es capaz de producir vocablos al ritmo en que se piensan, sin retardos significativos. En el experimento, y dado que el paciente aún podía generar sonidos, se ha preferido generar la respuesta con un retardo.

Se han usado tres redes neuronales recurrentes (RNNs) para, primero, identificar y amortiguar la actividad neuronal relacionada con el habla; segundo, transformar las secuencias de actividad neuronal relacionadas con el habla en una representación acústica intermedia, y finalmente generar la forma de onda acústica utilizando un sintetizador. Las señales se toman del cerebro mediante dos redes de finos electrodos aplicados en él.

En las pruebas se ha confirmado que el sistema es capaz de interpretar señales u generar voz sintetizada en un lapso de 253 milisegundos lo que abre la puerta a una comunicación casi on-time en el futuro.

Para entrenar las redes neuronales se colaboró con 21 hablantes ingleses que grabaron diferentes formas de pronunciar las palabras y, por tanto, distintos electrogramas.

Curiosamente, aparecieron problemas para discernir la palabra "back" (atrás) que fue confundida en muchas ocasiones con la palabra "left" (izquierda), sin que exista un explicación clara aunque puede ser que una única vocal de cada palabra rodeada por 3 consonantes genere espectros sonoros similares difíciles de diferenciar por las redes neuronales. 


El artículo completo, con todos los detalles científicos, puede leerse en este enlace.




0 comentarios :