Photo by vanenunes Photo On Envato Elements

A la inteligencia artificial (IA) de generación de imágenes le cuesta trabajo generar manos, a menudo produciendo deformaciones como seis dedos, porque las manos son estructuras anatómicas excepcionalmente complejas y detalladas que la IA no logra comprender con precisión.

La complejidad de las manos

Las manos son una de las partes del cuerpo humano más difíciles de replicar para la IA por varias razones clave:

  • Alto nivel de detalle: Cada mano tiene múltiples articulaciones, pliegues y una gran cantidad de pequeños huesos (falanges, metacarpianos, carpianos) y tendones que se mueven de forma coordinada. La IA debe aprender a replicar con precisión las relaciones geométricas y espaciales entre estos elementos, una tarea que los modelos actuales no dominan.
  • Posiciones y perspectiva: A diferencia de un rostro, que generalmente se ve de frente, las manos adoptan innumerables posiciones y ángulos. La IA debe entender cómo se ven las manos cuando están abiertas, cerradas, de perfil, desde arriba o desde abajo, lo que multiplica la complejidad de los datos de entrenamiento.
  • Interacciones con el entorno: Las manos interactúan constantemente con objetos y otras partes del cuerpo. La IA debe no solo generar la mano en sí, sino también cómo esta se deforma o se superpone con un objeto, como al sostener una taza o una pluma. Esto exige un nivel de comprensión contextual que los modelos de IA todavía no tienen.

Cómo aprende la IA a generar imágenes

La IA generativa de imágenes, como DALL-E 2 o Midjourney, no «comprende» la anatomía como un artista humano. En cambio, su funcionamiento se basa en un proceso conocido como difusión. Estos modelos comienzan con una imagen ruidosa y aleatoria y, a través de múltiples pasos, van eliminando el ruido para transformar la imagen inicial en algo que se parece a la descripción de texto que se le dio.

Para lograr esto, la IA se entrena con enormes conjuntos de datos que contienen miles de millones de imágenes y sus descripciones de texto. El modelo aprende a asociar palabras clave, como «mano» o «dedos», con los patrones visuales que ve en estas imágenes.

Sin embargo, debido a que las manos aparecen en una cantidad relativamente pequeña de las imágenes de entrenamiento, y en una gran variedad de posiciones, la IA no ve suficientes ejemplos de manos correctamente formadas desde todos los ángulos. Esto provoca que el modelo no pueda construir una representación interna precisa de la estructura de la mano. En vez de entender la mano, solo aprende a adivinar cómo se ven sus partes basándose en los datos que tiene, lo que lleva a las deformaciones.

¿Mejorará la IA en el futuro?

La generación de manos ya ha mejorado significativamente en los modelos más recientes. Los desarrolladores están utilizando nuevas técnicas de entrenamiento, como la atención o el refinamiento de las imágenes, para mejorar la precisión en áreas complejas. A medida que los modelos de IA sigan entrenándose con conjuntos de datos más grandes y diversificados, y con un enfoque específico en estructuras complejas como las manos, es probable que la generación de imágenes de manos sin deformaciones se convierta en algo común en el futuro.

No deje que su portafolio comercial pase desapercibido. Contáctenos hoy mismo en graphicsxpress.net y descubra cómo podemos impulsar su negocio con estrategias publicitarias efectivas y asequibles. ¡Su éxito es nuestra prioridad!