La rebelión de la IA local: Qué es Ollama y por qué está en el portátil de todo desarrollador

La rebelión de la IA local: Qué es Ollama y por qué está en el portátil de todo desarrollador

Mientras me preparaba el café esta mañana, estaba leyendo (otra vez) sobre la nueva API de precios de Anthropic y el lanzamiento de GPT-4o. Es fascinante. La IA en la nube es cada vez más potente, más rápida y... bueno, sigue costando dinero. Cada llamada es un céntimo, cada experimento un puñado de euros. Y ni hablemos de la privacidad. Cada prompt que enviamos, cada documento que analizamos, viaja a servidores que no controlamos.

Pero, en paralelo, está ocurriendo una revolución silenciosa. Una que no hace tanto ruido en los grandes titulares, pero que se está extendiendo como la pólvora en foros de desarrolladores, comunidades de sysadmins y entre los entusiastas del homelab. Se llama Ollama, y si tienes un ordenador medianamente decente, es la herramienta que te devuelve el control total de la IA.

No es casualidad que cada vez más gente hable de esto. Ollama ha conseguido algo que hasta hace poco era un dolor de cabeza: hacer que ejecutar modelos de lenguaje (LLMs) potentes en tu propio hardware sea absurdamente simple.

 

¿Qué es exactamente Ollama y por qué tanto ruido?

 

Para entender Ollama, piensa en Docker. ¿Recuerdas lo complicado que era desplegar aplicaciones antes de los contenedores? Dependencias, librerías, configuraciones de servidor... Docker llegó y dijo: "Toma, aquí tienes una caja que funciona en todas partes".

Ollama es el Docker de los Modelos de Lenguaje.

Hasta ahora, si querías ejecutar un modelo open source como Llama 3 o Mistral localmente, tenías que:

  1. Descargar los pesos del modelo (archivos de gigabytes) desde Hugging Face.

  2. Lidiar con las complejidades de llama.cpp o similares.

  3. Compilarlo todo, gestionar las dependencias de Python, las versiones de CUDA (si tienes NVIDIA) o Metal (si tienes Mac).

  4. Rezar para que todo funcione.

Ollama elimina todo eso. Es un runner de LLMs que, con un solo comando, descarga, configura y ejecuta el modelo que le pidas. Pero su verdadera magia no es solo ejecutarlo; es que, en el mismo instante, expone ese modelo a través de una API REST local.

De repente, no solo tienes un chatbot en tu terminal. Tienes un backend de IA privado, que no cuesta dinero por uso y que puedes integrar en tus propias aplicaciones.

 

El gran debate: IA Local (Ollama) vs. IA en la Nube (OpenAI, Claude)

 

Aquí es donde se pone interesante. Como empresa tecnológica en Sevilla, en ForgeNEX vemos clientes lidiando con esta decisión todos los días. ¿Pago por la comodidad y la potencia bruta de la nube, o invierto en una solución local?

No nos vamos a engañar: un modelo de 7 mil millones (7B) de parámetros corriendo en tu portátil no va a superar a GPT-4o en creatividad o razonamiento complejo. Pero esa no es la cuestión. La cuestión es la idoneidad para la tarea.

CaracterísticaIA en la Nube (OpenAI, Anthropic, Google)IA Local (Ollama)
PrivacidadNula. Tus datos se procesan en servidores de terceros.Total. Los datos nunca salen de tu máquina.
CostePago por token (variable y potencialmente alto).Cero. Coste hundido del hardware.
VelocidadDepende de la red y la carga del servidor.Instantánea. Latencia de red cero.
PotenciaAcceso a modelos SOTA (Estado del Arte) gigantes.Limitado por tu hardware (GPU/RAM).
ControlModelos "censurados" y alineados.Acceso a modelos sin filtro, especializados o fine-tuned.
DisponibilidadDepende de una conexión a Internet activa.100% offline.

Para una empresa, los dos primeros puntos son revolucionarios. Poder analizar un contrato, un informe financiero o un volcado de logs del servidor sabiendo que esa información sensible no viaja por Internet, es un cambio de paradigma.

 

Prueba de fuego: ¿Funciona esto en mi PC de "andar por casa"?

 

Hagamos un experimento práctico. Digamos que tienes un PC decente, quizás uno que compraste para jugar o para diseño gráfico. El estándar de oro de la generación pasada: una NVIDIA RTX 3060 con 8GB de VRAM.

Muchos piensan que para la IA necesitas una A100 de 40.000 €. La realidad es que esa 3060 es más que capaz.

  1. Instalación: Vas a ollama.com y descargas la aplicación para Windows, macOS o Linux. La instalas. Ya está. (En serio, en Linux es un curl y listo).

  2. Ejecutando tu primer modelo: Abres una terminal y escribes:

     

    Bash

    ollama run llama3:8b
    

    ¿Qué pasa aquí? llama3:8b es el último modelo de Meta, el de 8 mil millones de parámetros (el más pequeño de la familia). Ollama lo descarga (unos 4.7 GB) y, cuando termina, te presenta un prompt de chat.

  3. El rendimiento: En esa RTX 3060 de 8GB, el modelo llama3:8b (que cabe perfectamente en la VRAM) genera respuestas a una velocidad increíble, a veces más rápido de lo que puedes leer.

¿Quieres algo más potente? Con 8GB de VRAM, estamos en el límite, pero gracias a la cuantización (una forma de "comprimir" los modelos perdiendo algo de precisión, pero ahorrando mucho espacio), puedes ejecutar modelos más grandes.

Por ejemplo, podrías probar una versión de Mistral (un modelo excelente) de 7B cuantizado a 4 bits (Q4_K_M), que ocupa aún menos. O incluso un modelo de 13B cuantizado. La regla general es: si tienes X GB de VRAM, puedes ejecutar cómodamente modelos de X mil millones de parámetros (o más grandes si están cuantizados).

 

El verdadero poder: La API (Aquí es donde brilla para los desarrolladores)

 

Chatear está bien, pero el verdadero valor para una empresa como ForgeNEX está en la API. En cuanto ejecutas ollama run ..., Ollama levanta un servidor en http://localhost:11434.

Puedes hacerle peticiones con un simple curl.

Bash

curl -X POST http://localhost:11434/api/generate -d '{
 "model": "llama3:8b",
 "prompt": "Explica brevemente qué es un firewall en 3 puntos clave.",
 "stream": false
}'
	
	

Recibirás un JSON con la respuesta. Esto es genial para scripts de automatización. Por ejemplo, un script de Bash que revise logs y pida a Ollama un resumen de los errores.

Pero la característica estrella es esta: Ollama expone un endpoint compatible con la API de OpenAI.

¿Qué significa esto? Significa que cualquier aplicación, script o herramienta que ya sepa cómo hablar con OpenAI (que son, básicamente, todas) puede "engañarse" para que hable con tu Ollama local. Solo tienes que cambiar la URL base de la API de https://api.openai.com/v1 a http://localhost:11434/v1.

¡Es una locura! Puedes usar librerías oficiales de OpenAI en Python o JavaScript, apuntarlas a tu máquina local y ejecutar tus aplicaciones sin coste y con total privacidad.

 

¿Y qué pasa con AnythingLLM, LM Studio y el resto del zoo?

 

El ecosistema de IA local está creciendo rápido y es fácil confundirse.

  • LM Studio / GPT4All: Son aplicaciones "todo en uno". Descargas un programa, y dentro de él buscas y ejecutas modelos. Son geniales para empezar y para usuarios menos técnicos. Suelen ser más "click-and-play", pero menos flexibles para la integración.

  • Ollama: Es el backend. Es el motor. No tiene una interfaz gráfica bonita por sí mismo (aunque hay muchas, como Open WebUI). Su fuerza es ser un servidor de API robusto.

  • AnythingLLM / PrivateGPT: Estos son frontends de RAG (Retrieval-Augmented Generation). Son aplicaciones diseñadas para "chatear con tus documentos". Lo interesante es que AnythingLLM puede usar Ollama como motor.

No compiten, se complementan. La configuración ganadora para muchas pymes ahora mismo es:

  1. Motor: Instalar Ollama para gestionar los modelos.

  2. Interfaz: Instalar AnythingLLM (o una alternativa) para que los empleados puedan subir PDFs, DOCs o webs.

  3. Conexión: Configurar AnythingLLM para que, cuando haga una pregunta, la envíe a la API de Ollama en lugar de a OpenAI.

¿El resultado? Un sistema interno de consulta de documentos 100% privado, sin facturas por tokens y que se ejecuta en un servidor de la oficina.

 

Usos prácticos: Más allá de pedirle la receta de la tortilla

 

Bien, ¿y para qué usamos esto en el mundo real, aparte de para prototipar?

  1. Asistente de código privado: Los programadores de ForgeNEX pueden usar codellama (un modelo afinado para código) directamente en su VSCode (con extensiones como Continue). Pueden pedirle que revise su código, genere boilerplate o explique un bloque complejo, sin miedo a filtrar propiedad intelectual de un cliente.

  2. Análisis de logs de servidor: Un sysadmin puede volcar 5000 líneas de un log de nginx o syslog en la API de Ollama y pedir: "Resúmeme los errores 500 y dime las IPs más problemáticas". Cero riesgo de seguridad.

  3. Triaje de soporte interno: Automatizar la clasificación de tickets de soporte leyendo el correo electrónico del empleado y usando un modelo local para categorizarlo (Hardware, Software, Red) antes de asignarlo.

  4. Generación de datos de prueba: "Actúa como una API REST y genérame 20 ejemplos de usuarios en formato JSON con nombres, DNI y direcciones españolas ficticias".

 

La democratización real de la IA

 

La IA en la nube seguirá dominando las tareas que requieran una potencia descomunal. Pero Ollama representa algo más profundo: la democratización y la comoditización de la IA.

Ha convertido una tecnología esotérica y cara en una herramienta más, tan accesible como una base de datos o un servidor web. Nos devuelve la soberanía sobre nuestros datos y elimina la barrera económica para la experimentación.

El futuro no es cloud O local; es híbrido. Usaremos la nube para los "martillos pilones" y nuestra IA local para el trabajo diario, el sensible y el rápido. Y gracias a Ollama, esa IA local acaba de volverse accesible para (casi) todos.


¿Te interesa explorar cómo una solución de IA privada podría transformar la gestión de documentos o la automatización en tu empresa? ¡Hablemos de las posibilidades!

Compartir: