LegoGPT es un modelo de lenguaje especializado en construir modelos con LEGOs, es decir capaz de "entender" qué desea construir el usuario, generar un modelo LEGO que sea construible, entregar las instrucciones para hacerlo y permitir un interface con, por ejemplo, un robot o línea de montaje.
So bien, el sistema puede parecer un juguete, establece algoritmos para trabajos industriales de montaje.
El artículo científico completo puede leerse en este enlace.
El primer elemento es la decodificación del prompt de entrada para determinar qué figura quiere construir el interlocutor. Hay un argot propio al construir .LEGOs que es necesario tener en cuenta.
El corazón del sistema es una gran base de datos, un conjunto de datos a gran escala de diseños LEGO físicamente estables, junto con sus descripciones asociadas, sus restricciones mecánicas (geometrías compatibles, fuerzas puestas en juego, criterios estéticos, etc.). Contiene más de 47.000 estructuras con más de 28.000 objetos 3D, cada uno de ellos definido apropiadamente para su utilización en la red neuronal.
Sobre esta base de datos, se entrena un modelo de lenguaje autorregresivo de gran tamaño para predecir el siguiente ladrillo a añadir mediante predicción de la siguiente unidad (token). Durante la generación (que, en este caso, es sinónimo de construcción), es preciso verificar que se cumplen las leyes físicas durante la inferencia autorregresiva de la red neuronal, lo cual permite eliminar predicciones inviables utilizando leyes físicas y restricciones de ensamblaje (por ejemplo, la generación no puede permitir que una pieza quede "volando" o que no encaje en otra).
Las pruebas demuestran que LEGOGPT produce diseños LEGO estables, diversos y estéticamente atractivos que se alinean estrechamente con las indicaciones de texto de entrada. Además, se ha desarrollado un método de texturizado LEGO basado en texto para generar diseños con color y textura.
0 comentarios :
Publicar un comentario