Sevilla, España
Sevilla, España
+(34) 624 816 969
Los modelos de lenguaje de gran tamaño (LLM) han dominado el panorama de la inteligencia artificial generativa, pero su arquitectura secuencial, que procesa tokens uno tras otro de izquierda a derecha, está comenzando a mostrar sus limitaciones. En entornos locales con un único usuario, este enfoque infrautiliza el hardware moderno, como GPUs y TPUs, dejando ciclos de procesamiento sin aprovechar. Google ha respondido con DiffusionGemma, un modelo experimental de código abierto que promete un cambio de paradigma: generar bloques completos de texto en paralelo mediante técnicas de difusión, alcanzando una inferencia hasta cuatro veces más rápida que los modelos autorregresivos tradicionales.

Tabla de contenidos [Mostrar]
El rendimiento no es la única ventaja. El analista tecnológico Carmi Levy señala que los modelos de monetización basados en pago por token "penalizan el uso de soluciones de IA que no son óptimamente eficientes". DiffusionGemma, al acelerar la generación, podría reducir el número de tokens necesarios para una misma tarea, lo que se traduce en un ahorro económico directo. Levy añade que este modelo "podría marcar el inicio de una nueva generación de soluciones más eficientes, diseñadas para tareas específicas, que permitan ampliar la capacidad de cómputo sin tensionar el presupuesto operativo". Para empresas que buscan optimizar sus costes en IA, este enfoque es especialmente relevante, como se discute en nuestro artículo sobre productividad empresarial con Microsoft 365, donde la eficiencia es clave.
Basado en la familia Gemma 4 de Google y en su investigación Gemini Diffusion, DiffusionGemma es un modelo de 26.000 millones de parámetros tipo mixture-of-experts (MoE). Su innovación radica en cómo aprovecha el hardware: asigna más carga de trabajo en cada ciclo de procesamiento, redactando párrafos completos de 256 tokens de una sola vez. Durante la inferencia, solo activa 3.800 millones de parámetros y, con cuantización, puede ejecutarse en GPUs de consumo de gama alta con aproximadamente 18 GB de VRAM, como la Nvidia RTX 5090. Los investigadores de Google, Brendan O’Donoghue y Sebastian Flennerhag, lo describen así: "Es como pasar de una máquina de escribir secuencial a una imprenta masiva capaz de imprimir bloques completos de texto simultáneamente".

El funcionamiento recuerda a los generadores de imágenes basados en IA, que parten de un "ruido visual" aleatorio y lo refinan iterativamente hasta obtener una imagen final. DiffusionGemma aplica este mismo principio al texto: no genera tokens de forma ordenada, sino que parte de un "lienzo de tokens aleatorios" que va refinando en múltiples pasadas, identificando los elementos contextuales más relevantes. Además, incorpora atención bidireccional: al generar 256 tokens en paralelo, cada token puede tener en cuenta a todos los demás, lo que resulta especialmente útil en dominios de naturaleza no lineal, como grafos matemáticos, generación de código o edición en línea. Esta capacidad de autocorrección mediante sistemas de puntuación de confianza permite revaluar tokens en cada iteración, mejorando la calidad final.
El modelo está optimizado para el ecosistema hardware de Nvidia, garantizando compatibilidad tanto con configuraciones de consumo como con sistemas empresariales de alto rendimiento como Hopper o Blackwell. Se distribuye bajo licencia Apache 2.0, lo que permite a los desarrolladores utilizar, modificar, distribuir y comercializar el software libremente. Puede ejecutarse en GPU o en la nube a través de Google Cloud Model Garden o Nvidia NIM, y está disponible en plataformas como Hugging Face, GitHub y vLLM, con soporte para la biblioteca open source llama.cpp en el futuro próximo. Para los profesionales de TI, esta apertura contrasta con los riesgos de vendor lock-in que analizamos en otro artículo.
DiffusionGemma resulta especialmente útil en flujos de trabajo locales donde la velocidad es crítica, como la generación de estructuras de texto no lineales, y abre lo que Google denomina "nuevos patrones de comportamiento" en modelos de IA, como la comprensión multimodal o la generación y renderizado de código casi en tiempo real. Levy destaca que "DiffusionGemma está especialmente bien preparado para la programación interactiva y la edición, donde su eficiencia permite iteraciones rápidas". También resalta su capacidad para funcionar con aproximadamente 18 GB de VRAM y desplegarse en GPU locales accesibles, beneficiando a cargas de trabajo de atención al cliente basadas en interacción en tiempo real y procesamiento local. Como ejemplo, el modelo ha sido afinado para jugar al sudoku, una tarea compleja para modelos autorregresivos debido a la dependencia entre tokens futuros, ilustrando su capacidad para abordar problemas complejos con mayor solvencia.

Google reconoce que DiffusionGemma está optimizado para casos de uso específicos y que existen importantes compromisos. El modelo está diseñado para inferencia con tamaños de lote reducidos y baja latencia, orientado a generación rápida en entornos con un único acelerador potente. En entornos cloud con alta concurrencia, el enfoque paralelo ofrece beneficios decrecientes e incluso puede incrementar los costes de operación. Además, la calidad de salida es inferior a la de Gemma 4 estándar, diseñado para aplicaciones donde la calidad es prioritaria. No obstante, Levy señala que los ciclos de refinamiento iterativo pueden compensar esta limitación. Aunque Google no ha detallado los costes de ejecución, todo apunta a que se trata de una propuesta centrada en la eficiencia. "Cuando se despliega en cargas de trabajo adecuadas, DiffusionGemma tiene potencial para reducir la sobrecarga de procesamiento y los costes asociados", concluye el analista.
Este modelo representa un paso adelante en la evolución de la IA generativa, ofreciendo una alternativa viable para escenarios donde la velocidad y la eficiencia son críticas. Para los profesionales de DevOps y SysAdmins, entender estas nuevas arquitecturas es esencial, como se aborda en nuestro análisis sobre código como mensaje al futuro y los riesgos de los modelos propietarios en el desaguisado de Anthropic Fable.
Fuente original: ComputerWorld. Análisis y adaptación por ForgeNEX.