Sevilla, España
Sevilla, España
+(34) 624 816 969
Tabla de contenidos [Mostrar]
Los modelos de lenguaje de gran tamaño (LLM) actuales, a pesar de su sofisticación, siguen anclados en un paradigma secuencial: generan texto token a token, de izquierda a derecha, como si estuvieran tecleando en un teclado. Este enfoque, aunque efectivo, infrautiliza los recursos de hardware modernos como GPUs y TPUs, especialmente en entornos locales de un solo usuario. Google ha identificado este cuello de botella y propone una solución radical: DiffusionGemma.

DiffusionGemma es un modelo de código abierto experimental que genera texto de forma paralela, utilizando técnicas de difusión. En lugar de predecir el siguiente token, parte de un 'lienzo de tokens aleatorios' y lo refina iterativamente hasta obtener bloques completos de contenido. Según Google, esto permite una inferencia hasta cuatro veces más rápida que los modelos autorregresivos tradicionales. El modelo pertenece a la familia Gemma 4 y cuenta con 26.000 millones de parámetros, aunque durante la inferencia solo activa 3.800 millones gracias a su arquitectura mixture-of-experts (MoE).
Esta eficiencia se traduce en un ahorro potencial de costes. Carmi Levy, analista tecnológico, señala que los modelos de monetización basados en pago por token 'penalizan el uso de soluciones de IA que no son óptimamente eficientes'. DiffusionGemma podría marcar el inicio de una nueva generación de soluciones más eficientes, diseñadas para tareas específicas, que permitan ampliar la capacidad de cómputo sin tensionar el presupuesto operativo.

El proceso recuerda a los generadores de imágenes basados en IA, que parten de ruido visual y lo refinan hasta obtener una imagen final. DiffusionGemma aplica este mismo principio al texto: no genera tokens de forma ordenada, sino que parte de tokens aleatorios y los va refinando en múltiples pasadas, identificando los elementos contextuales más relevantes. Además, incorpora atención bidireccional, lo que permite que cada token considere a todos los demás durante la generación paralela de 256 tokens. Esto es especialmente útil en dominios no lineales como grafos matemáticos, generación de código o edición en línea, tal como se explora en nuestro artículo sobre agentes de código.
El modelo también se autocorrige mediante sistemas de puntuación de confianza, revaluando tokens en cada iteración. Los investigadores Brendan O’Donoghue y Sebastian Flennerhag lo describen como 'pasar de una máquina de escribir secuencial a una imprenta masiva capaz de imprimir bloques completos de texto simultáneamente'. El modelo está optimizado para el ecosistema Nvidia, compatible con GPUs de consumo como la RTX 5090 (con ~18 GB de VRAM) y sistemas empresariales como Hopper o Blackwell.
DiffusionGemma brilla en flujos de trabajo locales donde la velocidad es crítica, como la generación de estructuras de texto no lineales, programación interactiva, edición en tiempo real y atención al cliente con procesamiento local. Levy destaca que su capacidad para ejecutarse en GPUs locales accesibles beneficia a cargas de trabajo que requieren iteraciones rápidas. Además, el modelo incluye un modo de razonamiento eficaz para resolver problemas complejos, como jugar al sudoku, una tarea difícil para modelos autorregresivos.
El modelo se distribuye bajo licencia Apache 2.0, lo que permite a los desarrolladores utilizarlo, modificarlo y comercializarlo libremente. Está disponible en Hugging Face, GitHub, vLLM, Google Cloud Model Garden y Nvidia NIM, con soporte futuro para llama.cpp. Para más contexto sobre modelos de código abierto, revisa nuestro análisis sobre Cohere y la soberanía empresarial.

Google reconoce que DiffusionGemma está optimizado para casos de uso específicos. En entornos cloud con alta concurrencia, donde se gestionan decenas de miles de solicitudes por segundo, el enfoque paralelo ofrece beneficios decrecientes e incluso puede incrementar los costes de operación. Además, la calidad de salida es inferior a la de Gemma 4 estándar, aunque los ciclos de refinamiento iterativo pueden compensar esta limitación en ciertos escenarios.
Levy concluye que, aunque puede ser menos preciso en algunos contextos, cuando se despliega en cargas de trabajo adecuadas, DiffusionGemma tiene potencial para reducir la sobrecarga de procesamiento y los costes asociados. Para los profesionales IT, este modelo representa un cambio de paradigma: de la generación secuencial a la paralela, con implicaciones directas en la eficiencia de hardware y el diseño de aplicaciones. Si quieres profundizar en cómo estos cambios afectan a la infraestructura, no te pierdas nuestro artículo sobre código como mensaje al futuro.
Fuente original: ComputerWorld. Análisis y adaptación por ForgeNEX.