DiffusionGemma: el modelo de IA de Google que escribe párrafos enteros en paralelo y acelera la inferencia 4x

DiffusionGemma: el modelo de IA de Google que escribe párrafos enteros en paralelo y acelera la inferencia 4x

  • 15/jun./2026
  • ForgeNEX by ForgeNEX
  • IA

Los modelos de lenguaje de gran tamaño (LLM) han dominado el panorama de la inteligencia artificial, pero su arquitectura secuencial, que procesa tokens uno tras otro de izquierda a derecha, está lejos de ser óptima. Este enfoque, similar a escribir en un teclado, infrautiliza los recursos de hardware como GPUs y TPUs en entornos de usuario único. Google ha decidido romper este paradigma con DiffusionGemma, un modelo experimental de código abierto que genera texto mediante técnicas de difusión, permitiendo la creación simultánea de bloques completos de contenido. Según la compañía, esto logra una inferencia hasta cuatro veces más rápida que los modelos autorregresivos tradicionales.

google-presenta-el-modelo-de-ia-diffusiongemma-que-0.jpg

¿Cómo funciona DiffusionGemma?

Basado en la familia Gemma 4 de Google y en su investigación Gemini Diffusion, DiffusionGemma es un modelo de 26.000 millones de parámetros tipo mixture-of-experts (MoE). Durante la inferencia, solo activa 3.800 millones de parámetros, lo que, combinado con cuantización, permite ejecutarlo en GPUs de consumo de gama alta con aproximadamente 18 GB de VRAM, como la Nvidia RTX 5090. El modelo cambia la forma en que se aprovecha el hardware: en lugar de generar tokens de forma secuencial, parte de un “lienzo de tokens aleatorios” y lo refina iterativamente en múltiples pasadas, similar a cómo los generadores de imágenes basados en IA convierten ruido visual en una imagen final. Así, DiffusionGemma redacta párrafos completos de 256 tokens de una sola vez, logrando una generación de texto hasta cuatro veces más rápida en GPU.

“Es como pasar de una máquina de escribir secuencial a una imprenta masiva capaz de imprimir bloques completos de texto simultáneamente”, explican los investigadores de Google Brendan O’Donoghue y Sebastian Flennerhag. El modelo incorpora atención bidireccional, lo que permite que cada token considere a todos los demás en cada pasada, resultando especialmente útil en dominios no lineales como grafos matemáticos, generación de código o edición en línea.

Eficiencia y ahorro de costes

El modelo no solo mejora el rendimiento, sino que también puede suponer un ahorro económico. El analista tecnológico Carmi Levy señala que los modelos de monetización basados en pago por token “penalizan el uso de soluciones de IA que no son óptimamente eficientes”. DiffusionGemma, al generar texto en paralelo, reduce la cantidad de tokens procesados, lo que podría disminuir los costes operativos. Levy sostiene que “podría marcar el inicio de una nueva generación de soluciones más eficientes, diseñadas para tareas específicas, que permitan ampliar la capacidad de cómputo sin tensionar el presupuesto operativo”. Este enfoque se alinea con tendencias como la facturación basada en resultados de IA, donde el coste se vincula al valor generado más que al volumen de tokens.

google-presenta-el-modelo-de-ia-diffusiongemma-que-1.jpg

Casos de uso clave

DiffusionGemma está optimizado para flujos de trabajo locales donde la velocidad es crítica, como la generación de estructuras de texto no lineales, programación interactiva y edición en tiempo real. Levy destaca que “su capacidad para funcionar con aproximadamente 18 GB de VRAM y desplegarse en GPU locales accesibles puede beneficiar a cargas de trabajo de atención al cliente basadas en interacción en tiempo real y procesamiento local”. Además, el modelo incorpora un modo de razonamiento eficaz para la resolución de problemas, como jugar al sudoku, una tarea compleja para modelos autorregresivos debido a la dependencia entre tokens futuros.

Para los desarrolladores, DiffusionGemma se distribuye bajo licencia Apache 2.0, lo que permite usar, modificar, distribuir y comercializar el software libremente. Puede ejecutarse en GPU o en la nube a través de Google Cloud Model Garden o Nvidia NIM, y está disponible en plataformas como Hugging Face, GitHub y vLLM, con soporte para llama.cpp próximamente. Esto facilita su integración en entornos de desarrollo, como los que JetBrains busca potenciar con sus programas de formación.

Limitaciones y retos

Google reconoce que DiffusionGemma está optimizado para casos de uso específicos y que existen importantes compromisos. El modelo está diseñado para inferencia con tamaños de lote reducidos y baja latencia, orientado a generación rápida en entornos con un único acelerador potente. En entornos cloud con alta concurrencia, el enfoque paralelo ofrece beneficios decrecientes e incluso puede incrementar los costes de operación. Además, la calidad de salida es inferior a la de Gemma 4 estándar, diseñado para aplicaciones donde la calidad es prioritaria.

No obstante, Levy señala que, aunque “puede ser menos preciso en ciertos escenarios”, los ciclos de refinamiento iterativo pueden compensar esta limitación. “Cuando se despliega en cargas de trabajo adecuadas, DiffusionGemma tiene potencial para reducir la sobrecarga de procesamiento y los costes asociados”, concluye. Este modelo representa un paso hacia arquitecturas más eficientes, complementando enfoques como la nueva arquitectura de recuperación y ranking para IA.

google-presenta-el-modelo-de-ia-diffusiongemma-que-2.jpg

Impacto en el ecosistema IT

DiffusionGemma no solo acelera la inferencia, sino que también democratiza el acceso a modelos de alto rendimiento al poder ejecutarse en hardware de consumo. Esto es crucial para empresas que buscan soberanía digital y control sobre sus datos, como las que Magellan Group asesora en su cadena de valor digital. Además, su capacidad de autocorrección mediante sistemas de puntuación de confianza lo hace robusto para aplicaciones críticas. En el ámbito de la ciberseguridad, por ejemplo, podría integrarse en pruebas de penetración para generar scripts de prueba de forma más rápida.


Fuente original: ComputerWorld. Análisis y adaptación por ForgeNEX.

Compartir: