Sevilla, España
Sevilla, España
+(34) 624 816 969
Los modelos de lenguaje de gran tamaño (LLM) han dominado el panorama de la inteligencia artificial generativa, pero su arquitectura secuencial —token a token, de izquierda a derecha— está empezando a mostrar sus limitaciones, especialmente en entornos locales donde los recursos de hardware como GPUs o TPUs quedan infrautilizados. Google ha respondido con DiffusionGemma, un modelo experimental de código abierto que abandona el procesamiento secuencial para adoptar un enfoque de difusión, generando bloques completos de texto en paralelo. Según la compañía, esto permite una inferencia hasta cuatro veces más rápida que los modelos autorregresivos tradicionales.

Tabla de contenidos [Mostrar]
Basado en la familia Gemma 4 de Google y en su investigación Gemini Diffusion, DiffusionGemma es un modelo de 26.000 millones de parámetros tipo mixture-of-experts (MoE). Durante la inferencia, solo activa 3.800 millones de parámetros, lo que, combinado con cuantización, permite ejecutarlo en GPUs de consumo de gama alta con aproximadamente 18 GB de VRAM, como la Nvidia RTX 5090. El modelo genera 256 tokens de una sola vez, en lugar de hacerlo uno por uno.
El mecanismo recuerda a los generadores de imágenes basados en IA: parte de un 'lienzo de tokens aleatorios' que refina iterativamente mediante múltiples pasadas, identificando los elementos contextuales más relevantes. Los investigadores de Google, Brendan O’Donoghue y Sebastian Flennerhag, lo describen como 'pasar de una máquina de escribir secuencial a una imprenta masiva capaz de imprimir bloques completos de texto simultáneamente'.
La capacidad de generar texto en paralelo no solo acelera la inferencia, sino que también puede traducirse en un ahorro económico. El analista tecnológico Carmi Levy señala que los modelos de monetización basados en pago por token 'penalizan el uso de soluciones de IA que no son óptimamente eficientes'. DiffusionGemma, al ser más eficiente, podría reducir la sobrecarga de procesamiento y los costes asociados. Esto es especialmente relevante en un contexto donde la facturación basada en tokens está siendo cuestionada, como hemos visto en nuestro análisis sobre Oracle y la facturación por resultados.
Además, el modelo incorpora atención bidireccional: al generar 256 tokens en paralelo, cada token puede tener en cuenta a todos los demás, lo que resulta especialmente útil en dominios no lineales como grafos matemáticos, generación de código o edición en línea. También cuenta con un sistema de autocorrección mediante puntuaciones de confianza, revaluando tokens en cada iteración para corregir errores en tiempo real.

DiffusionGemma está optimizado para flujos de trabajo locales donde la velocidad es crítica. Levy destaca su idoneidad para programación interactiva y edición, donde su eficiencia permite iteraciones rápidas. También es útil en atención al cliente basada en interacción en tiempo real y procesamiento local. El modelo ha sido afinado incluso para jugar al sudoku, una tarea compleja para modelos autorregresivos debido a la dependencia entre tokens futuros.
En el ámbito del desarrollo de software, su capacidad para generar código casi en tiempo real podría complementar herramientas como las que ofrece JetBrains, tal como comentamos en nuestro artículo sobre la brecha de habilidades en IDE. La generación paralela de texto también abre nuevas posibilidades en la comprensión multimodal y la edición en línea.
Google reconoce que DiffusionGemma está optimizado para casos de uso específicos. En entornos cloud con alta concurrencia, donde la infraestructura debe gestionar decenas o cientos de miles de solicitudes por segundo, el enfoque paralelo ofrece beneficios decrecientes e incluso puede incrementar los costes de operación. Además, la calidad de salida es inferior a la de Gemma 4 estándar, diseñado para aplicaciones donde la calidad es prioritaria. No obstante, Levy señala que los ciclos de refinamiento iterativo pueden compensar esta limitación.
El modelo se distribuye bajo licencia Apache 2.0, lo que permite a los desarrolladores utilizarlo, modificarlo y comercializarlo libremente. Puede ejecutarse en GPU o en la nube a través de Google Cloud Model Garden o Nvidia NIM, y está disponible en plataformas como Hugging Face, GitHub y vLLM, con soporte para llama.cpp próximamente. Esta apertura es clave en un contexto donde la soberanía tecnológica y el código abierto ganan protagonismo, como hemos analizado en nuestro artículo sobre Nextcloud y la dependencia tecnológica.

DiffusionGemma representa un cambio de paradigma en la generación de texto, alejándose del procesamiento secuencial hacia un enfoque más paralelo y eficiente. Si bien no reemplazará a los modelos autorregresivos en todas las tareas, su impacto en aplicaciones locales y de baja latencia podría ser significativo. La combinación de velocidad, eficiencia y licencia abierta lo convierte en una herramienta atractiva para desarrolladores y empresas que buscan optimizar sus cargas de trabajo de IA.
Este movimiento de Google también refleja una tendencia más amplia hacia la especialización de modelos, donde la eficiencia y el coste son tan importantes como la calidad. En un mercado donde la búsqueda vectorial y las nuevas arquitecturas de recuperación están redefiniendo la IA, como vimos en nuestro análisis sobre ranking y recuperación, DiffusionGemma añade una capa adicional de innovación.
Fuente original: ComputerWorld. Análisis y adaptación por ForgeNEX.