Biblumliteraria: GPT-4o LITERATURA ELECTRÓNICA Y DIGITAL BIBLUMLITERARIA

19/5/24

GPT-4o

OpenAI ha anunciado su nuevo chatbot GPT-4o, siendo la "o" la inicial de "omni".

La mayor diferencia técnica con ChatGPT 4 es que el periodo de latencia, de respuesta, del nuevo sistema es mucho más corto que en las anteriores redes neuronales, del orden de 200-300 ms contra 3-5 s. aproximadamente. Este avance se ha conseguido al lograr reducir el número de tokens necesarios para codificar la información y, por tanto, ser necesarios menos cálculos.

Esto significa que la capacidad de "comprender" la información dada y el tiempo de generar la respuesta son mucho más pequeños y se asemejan a una conversación humana en tiempo real. Este hecho no es baladí ya que, por ejemplo, puede permitir traducción simultánea en tiempo real, tener menores alucinaciones por tener más tiempo para generar correctamente la respuesta, o hacer posible el interrumpir a ChatGPT sin tener que esperar a que la inteligencia artificial termine su respuesta para hacer una repregunta o cambiar de tema, lo que hace que las conversaciones parezcan más naturales.

Y, sobre todo, el que la entrada no tiene ya que ser únicamente texto sino que puede ser sonido o fotografías, siendo GPT-4o capaz de reconocer qué se le presenta y de generar una respuesta adecuada al caso. Es decir, es un funcionamiento multimodal que aspira a comprender todo y de ahí la letra "o". La respuesta puede ser, también, en audio lo que permite expresar matices, emociones y tonos en función del contexto.

En las demostraciones realizadas, también puede verse cómo GPT-4o puede "ver" una tabla en una fotografía y entresacar elementos de esa tabla, convirtiéndolos a datos utilizables en un ordenador.

Por el momento, está disponible para los usuarios de pago de ChatGPT Plus pero la empresa ha anunciado que próximamente estará a disposición del público de manera gratuita.

Con anterioridad, ya hemos hablado en Biblumliteraria, de que el futuro de interacción con el ordenador (o un teléfono móvil) es claramente verbal al estilo de la célebre escena de la película Star Trek. Vamos, poco a poco, alcanzando la capacidad de proceso para hacerlo.

Por el momento, la síntesis de voz en español tiene acento inglés pero en inglés la síntesis sonora es excelente.

Más información en este enlace.