19/6/25

Generando imágenes con IA

 


ChatGPT puede crear imágenes a partir de una pregunta textual.

En general, las imágenes generadas son genéricas, valga la redundancia, "entendiendo" la red neuronal tan sólo lo básico de la solicitud y olvidando los detalles, de modo que si el corazón de la petición en varias preguntas es el mismo, también serán muy similares las imágenes. Asimismo, parece claro que los datos de entrenamiento son escasos porque los dibujos y fotos propuestos son muy limitados y repetitivos. En cualquier caso, y a pesar de estas limitaciones, la capacidad gráfica de ChatGPT es interesante y es ampliamente usado.

Peor es que, al igual que cuando se trata de sólo texto, las alucinaciones son normales en este tipo de aplicación.

Por ejemplo, demando generar una imagen de un galeón del siglo XIX entrando en el puerto de La Habana. El resultado es, sin duda, bonito, pero nada tiene que ver con La Habana.


Cambiamos ahora la pregunta, demandando un galeón entrando en el puerto de Burgos (!) en 1750. Como ya hemos explicado, la imagen es muy similar dado que el centro nuclear de la pregunta es igual y que la variabilidad de los dados de entrenamiento es escasa. Pero, lo grave es que el sistema ni se da cuenta de que Burgos no está en la costa y dibuja una ciudad costera en la que se ve una catedral gótica.



Cuestionando, entonces, que Burgos no tiene mar, ChatGPT, siguiendo el patrón habitual, "se sorprende" del error, nos da la razón y propone otras ciudades:

Usuario: Pero, Burgos tiene puerto? esa imagen puede ser cierta? es en un río?

ChatGPT Plus : Buena observación: Burgos no tiene puerto marítimo. Burgos es una ciudad del interior de España, situada en la comunidad autónoma de Castilla y León, a unos 150 km del mar más cercano (el mar Cantábrico). La ciudad está atravesada por el río Arlanzón, que es un río pequeño y no navegable para barcos grandes, y mucho menos para galeones. Por tanto: Históricamente, un galeón jamás habría entrado en el "puerto de Burgos" porque no existe tal cosa. La imagen anterior es una representación imaginaria o fantasiosa, como si Burgos tuviera una conexión fluvial navegable para grandes barcos, lo cual es geográficamente imposible. Si quieres una imagen realista basada en una ciudad con puerto en esa época, podríamos usar: Santander, Bilbao o San Sebastián (norte). Cádiz, Sevilla (por el Guadalquivir) o La Coruña (sur y oeste). ¿Te gustaría una nueva imagen de un galeón entrando en un puerto realista, como el de Sevilla o Cádiz en el siglo XVIII?




Pidiéndole que dibuje el galeón entrando a San Sebastián (obviando que, probablemente, un galeón grande no podría entrar en la bahía de La Concha por falta de profundidad y debiera dirigirse a Pasajes), el resultado es:


Más o menos, la misma imagen sobre un fondo que nada tiene que ver con la archiconocida bahía de La Concha.

Le pedimos que incluya la no menos famosa isla de Santa Clara, sin la cual no se entiende la bahía de San Sebastián. El resultado es:



Usuario: pero esto no se parece en nada a San Sebastián

ChatGPT Plus: Tienes toda la razón: la imagen generada no representa fielmente San Sebastián, ni su bahía característica, ni el perfil urbano o natural reconocible (como el Monte Urgull, el Monte Igueldo o el paseo de La Concha). La pintura es más una fantasía romántica de un puerto genérico al atardecer.  Si buscamos realismo topográfico e histórico, lo ideal sería: 

Incluir los elementos geográficos esenciales:

  • Isla de Santa Clara en el centro de la bahía.
  • Monte Urgull con la fortaleza de la Mota (ya existía en 1750).
  • Monte Igueldo al oeste.
  • La forma cerrada de la Bahía de La Concha.

Ambientación del siglo XVIII:

  • Nada de edificios modernos.
  • Barcos de vela de la época, como el galeón que mencionas.
  • Un estilo pictórico coherente (tipo óleo realista o grabado de época).

¿Quieres que rehaga la imagen con esa descripción más precisa, para que se vea de verdad como San Sebastián en el siglo XVIII con un galeón entrando en la bahía?


Usuario: sí


La repuesta es muy esperanzadora ya que la frase se genera desde los datos de entrenamiento textuales. La imagen resultante es más similar a lo que esperábamos en un primer momento, siempre dentro del mismo esquema que se repite una y otra vez:








0 comentarios :