Los conversores de voz a texto son un campo de trabajo de mucha actualidad y alta rentabilidad porque permiten, por ejemplo, subtitular un discurso en modo automático.
El objetivo del nuevo desarrollo es que el texto generado por medio de redes neuronales y Deep Learning no dependa del acento o de la forma de hablar, más o menos formal. Hasta ahora, la mayoría de los sistemas requieren una entrada de voz clara y estándar o neutra en cuanto a acento.
Con los nuevos sistemas se pretende que la gente hable de forma natural, sea cual sea su origen o condición y que, aún así, el programa sea capaz de convertir el discurso a texto correctamente. E incluso, podemos pensar en aplicaciones más complicadas como entender a un niño pequeño, subtitular a un cantante, unir el texto generado con un traductor, entender a personas con discapacidad léxica, o mejorar las interfaces de los equipos tipo Siri o Alexa.
Más información en este enlace.