Nvidia está en una buena racha. Después de revelar su superchip Blackwell, que está diseñado para el entrenamiento de modelos de IA más potentes como GPT, Claude y Gemini, ha presentado una herramienta propia de IA de texto a 3D (consulte nuestra guía de las mejores tarjetas gráficas para opciones de consumo). .
El gigante de las tarjetas gráficas cerró la semana del GTC presentando LATTE3D, un modelo de IA generativa de texto a 3D que describió como una “impresora 3D virtual”. Puede convertir mensajes de texto en representaciones 3D de objetos y animales en un segundo.
Nvidia dice que las formas 3D generadas por LATTE3D pueden “servirse fácilmente en entornos virtuales para desarrollar videojuegos, campañas publicitarias, proyectos de diseño o campos de entrenamiento virtuales para robótica”. Hemos visto herramientas de conversión de texto a 3D antes y los elogios en línea sugieren que algunos no están muy impresionados con la calidad de los resultados de LATTE3D. Pero el nuevo modelo supone un gran avance, sobre todo en términos de velocidad.
Nvidia dice que produce formas 3D casi instantáneamente cuando ejecuta inferencia en una sola GPU, como la NVIDIA RTX A6000 utilizada para la demostración de investigación. Esto significa que un creador que comienza un diseño desde cero o revisa una biblioteca de recursos 3D podría usar LATTE3D para generar objetos detallados tan rápido como se le ocurren las ideas.
El modelo genera varias opciones de formas 3D basadas en cada mensaje de texto. Los objetos deseados se pueden optimizar para obtener una mayor calidad y luego exportarse a aplicaciones o plataformas de software de gráficos como NVIDIA Omniverse, que permite aplicaciones y flujos de trabajo 3D basados en Universal Scene Description (OpenUSD).
“Hace un año, los modelos de IA tardaban una hora en generar imágenes 3D de esta calidad, y el estado actual de la técnica ahora es de entre 10 y 12 segundos”, dijo Sanja Fidler, vicepresidenta de investigación de IA, “Ahora podemos producir resultados un orden de magnitud más rápido, poniendo la generación de texto a 3D casi en tiempo real al alcance de creadores de todas las industrias”.
Perros 3D generados por el modelo Nvidia LATTE3D AI (Crédito de la imagen: Nvidia)
LATTE3D fue desarrollado por el equipo del laboratorio de inteligencia artificial de Nvidia con sede en Toronto y se entrenó utilizando indicaciones de texto generadas mediante ChatGPT para mejorar la capacidad del modelo para manejar las diversas frases que un usuario podría inventar para describir un objeto 3D en particular. Si bien los investigadores entrenaron LATTE3D en dos conjuntos de datos específicos, animales y objetos cotidianos, se podría utilizar la misma arquitectura para entrenar la IA en otros tipos de datos. Sigue siendo únicamente un proyecto de investigación y no está disponible para uso público.
El creador de la IA, Bilawal Sidhu, escribió en X: “Este salto es enorme. DreamFusion alrededor de 2022 era lento y de baja calidad, pero inició esta revolución generativa 3D. Esfuerzos como ATT3D (Síntesis amortizada de texto a objetos 3D) persiguieron la velocidad a costa de la calidad. Ahora con LATTE3D es alto calidad y procesos en menos de un segundo. Lo que significa que puedes iterar y poblar rápidamente un mundo 3D usando texto o imagen en 3D”.
Junto con el vídeo, el 3D es la próxima frontera para la generación de imágenes mediante IA. También esta semana, Adobe anunció la integración de sus primeras herramientas Firefly impulsadas por IA en Substance 3D.