Sevilla, España
Sevilla, España
+(34) 624 816 969
Últimamente se ve mucho en redes, ¿verdad? Pantallazos de terminales descargando modelos con ollama pull, debates sobre si Llama 3.1 supera a Qwen3 en español, o gente ejecutando asistentes de código en su propio portátil sin conexión a internet. Si hasta hace un año "IA" era sinónimo de ChatGPT (y de pagar una suscripción), el panorama de 2025 es radicalmente distinto.
Estamos viviendo una auténtica "explosión cámbrica" de modelos de lenguaje, y la verdadera revolución, la más silenciosa, no está pasando en los gigantescos datacenters de la nube, sino en nuestros propios discos duros.
Ayer mismo me topé con un listado de modelos disponibles en plataformas como Ollama o Hugging Face y es abrumador: gpt-oss, qwen3-vl, deepseek-r1, llama3.1, phi3, gemma3... Nombres que acumulan millones de "pulls" (descargas), cada uno con docenas de "tags" (versiones) que indican su tamaño o especialización.
La pregunta que nos hacemos todos en el sector (y que seguro te estás haciendo tú) no es solo "cuál es el más potente", sino "¿para qué sirve cada uno?" y, sobre todo, "¿puedo ejecutar esto en mi máquina?"
En ForgeNEX, donde respiramos IT y desarrollo a diario, esta conversación es el pan de cada día. Así que vamos a poner orden en este caos, comparar los modelos más relevantes de esa lista y entender qué batalla se está librando en el terreno de la IA local.
Tabla de contenidos [Mostrar]
Primero, un contexto rápido. ¿Por qué ahora? Principalmente, gracias a Meta. Cuando soltaron Llama 2, y especialmente ahora con Llama 3 y Llama 3.1, rompieron la baraja. Demostraron que se podían crear modelos de altísimo rendimiento y ofrecerlos de forma "open-weight" (un término más preciso que "open-source"), permitiendo que cualquiera los descargue, los modifique y los ejecute donde quiera.
Esto ha forzado la mano de todos: Google ha respondido con Gemma, Microsoft con Phi-3, y los gigantes chinos como Alibaba (con Qwen) y 01.AI (con DeepSeek) han entrado en la competición global con modelos increíblemente potentes.
Un apunte importante sobre el "español": aunque el usuario preguntó por "modelos en español", la realidad es que la mayoría de estos modelos (Llama, Qwen, Mistral) no son específicamente españoles. Son modelos globales entrenados con una cantidad tan masiva de datos multilingües (billones de tokens) que su rendimiento en español es, sencillamente, espectacular. Han superado con creces a los antiguos modelos nativos y se han convertido en la opción por defecto.
Comparar Llama 3.1 con embeddinggemma es como comparar un coche de Fórmula 1 con un camión de mercancías. Ambos tienen motor, pero sirven para cosas radicalmente distintas.
Para entender la batalla, primero hay que agrupar a los contendientes de esa larga lista:
Son los modelos que intentan hacerlo todo bien: chatear, razonar, resumir, programar... Son la competencia directa de GPT-4.
Estos modelos renuncian a ser buenos en todo para ser excelentes en una cosa.
qwen3-coder, deepseek-v3.1 (con su modo thinking). Están entrenados con más código que lenguaje natural.qwen3-vl, llava. ¡Estos modelos "ven"! Puedes pasarles una imagen y hacerles preguntas sobre ella.gpt-oss, glm-4.6. Modelos diseñados no solo para chatear, sino para usar herramientas (APIs, funciones), lo que los acerca a la idea de "agentes" autónomos.
Modelos pequeños, rápidos y sorprendentemente capaces, diseñados para ejecutarse en dispositivos con recursos limitados.
Estos son los modelos "invisibles" pero cruciales para las empresas.
embeddinggemma, nomic-embed-text: No chateas con ellos. Su trabajo es convertir texto (como tus documentos de SharePoint, PDFs, etc.) en vectores numéricos. Son el motor del RAG (Generación Aumentada por Recuperación), la técnica que permite a una IA "leer" tus documentos privados y responder sobre ellos.
Vale, vamos al grano. Tienes un proyecto, ¿qué modelo descargas?
Buscas un compañero de chat inteligente, que te ayude a redactar correos, hacer brainstorming o te explique conceptos complejos en un español fluido y natural.
Estás harto de que Copilot tarde en responder o no quieres enviar tu código propietario a la nube. Necesitas un asistente de código local.
Quieres una IA que entienda imágenes. Le pasas una captura de pantalla de un error y te dice cómo arreglarlo, o una foto de una gráfica y te la resume.
Este es el caso de uso estrella en ForgeNEX. Quieres una IA que responda preguntas usando la base de datos de tu empresa, tus manuales de producto o tus documentos internos de OneDrive.
nomic-embed-text o embeddinggemmanomic-embed-text es famoso por su gran ventana de contexto, permitiendo "incrustar" documentos grandes con alta fidelidad. Es el motor que alimenta tu base de datos vectorial.
Aquí es donde la goma se encuentra con el asfalto. Todo esto suena genial, pero ¿funciona en mi portátil? La respuesta corta es: depende de tu VRAM (la memoria de tu tarjeta gráfica).
En la IA local, la VRAM es la nueva RAM. Es donde se carga el "peso" (los parámetros) del modelo.
Aquí tienes una guía rápida de requisitos reales para ejecutar estos modelos (usando cuantización, GGUF/Q4, que es el estándar):
Phi-3-mini, Llama 3.2 (3B), Mistral (7B) (justito).
Llama 3.1 (8B), Phi-3-Medium (14B).
Qwen3 (32B), Llama 3.1 (70B).
Llama 3.1 (405B), Qwen3 (480B).
La era de un solo modelo gigante en la nube que lo hace todo está dando paso a un ecosistema mucho más rico. El futuro no es un único modelo de 400B, sino un "agente" inteligente en tu propio PC que sepa cuándo usar Phi-3 (para una tarea rápida), cuándo llamar a Qwen3-VL (para ver una imagen) y cuándo despertar a Llama 3.1 70B (para redactar un informe complejo).
La verdadera potencia se ha desplazado del "alquiler" de IA en la nube al "control" de la IA en el edge. Y para nosotros en ForgeNEX, eso es lo más emocionante: diseñar soluciones que usen la herramienta adecuada, en el lugar adecuado, ya sea en un servidor cloud o en el portátil del usuario final.
La batalla de los modelos está servida, y los ganadores, por ahora, somos nosotros.