Tu ordenador puede "pensar": Por qué correr una IA en local y qué necesitas realmente para no morir en el intento

01/Dec/2025
by ForgeNEX
Tecnología y Tendencias, AI

Si te mueves por Reddit, Twitter (o X, como prefieras) o sigues a algún youtuber de tecnología, seguro que has notado un cambio de conversación. En 2023 todo era "¿Has visto lo que hace ChatGPT?". En 2024 y lo que llevamos de presente, la pregunta ha mutado a: "¿Has probado a correr Llama 3 en tu propio PC?".

No es casualidad. Hay una especie de "migración silenciosa" ocurriendo ahora mismo. Administradores de sistemas, desarrolladores e incluso usuarios curiosos están empezando a desconectar el cable de la nube para traer la inteligencia artificial a casa (o a la oficina). Y no, no es solo por ahorrarte los 20 euros del Plus. Es por privacidad, por control y, seamos honestos, porque mola bastante sentir que tienes un cerebro digital viviendo en tu tarjeta gráfica.

En ForgeNEX nos encanta cacharrear, así que hemos decidido bajar a tierra este tema. ¿Es viable usar una IA en local hoy en día para trabajar? ¿O es solo un pasatiempo para quienes tienen gráficas de 2.000 euros? Spoiler: es mucho más accesible de lo que crees.

Table of contents [Show] [Hide]

El elefante en la habitación: ¿Por qué demonios querría correr la IA en mi máquina?
El software: Ya no hace falta ser ingeniero de la NASA
Hablemos de hierro: ¿Qué necesito realmente?
La magia de la "Cuantización" (O cómo meter un elefante en un 600)
- Tabla de referencia rápida: ¿Qué puedo correr?
Reflexión final: ¿Hacia dónde vamos?

El elefante en la habitación: ¿Por qué demonios querría correr la IA en mi máquina?

Antes de hablar de RAM y teraflops, hablemos de razones. Si herramientas como Claude o ChatGPT funcionan de maravilla, ¿para qué complicarse la vida instalando cosas?

Principalmente, por tres motivos que, si trabajas en IT o manejas datos sensibles, te van a resonar:

Privacidad absoluta: Cuando usas una IA en la nube, tus datos viajan. Si le pides que resuma un contrato confidencial o que revise código propietario, estás confiando en que la empresa al otro lado no usará eso para entrenar a sus futuros modelos. En local, lo que pasa en tu ordenador, se queda en tu ordenador. Puedes desconectar el cable de red y seguirá funcionando.
Latencia cero (o casi): No hay colas de espera, no hay "el servidor está saturado". La velocidad depende exclusivamente de tu hardware.
Coste fijo: Pagas el hardware una vez (o lo amortizas si ya lo tienes). No hay sorpresas en la factura de la API a fin de mes si te has pasado haciendo consultas.

El software: Ya no hace falta ser ingeniero de la NASA

Hace un año, correr un modelo de lenguaje en local era un dolor de muelas. Había que compilar librerías, pelearse con Python y rezar para que los drivers de CUDA no explotasen.

Hoy la barrera de entrada ha desaparecido gracias a herramientas como Ollama, LM Studio o GPT4All.

Si no has probado Ollama, hazte un favor y bájatelo. Es ridículamente sencillo: abres terminal, escribes ollama run llama3 y listo. En cuestión de segundos tienes un modelo conversacional corriendo en tu máquina. Es esa democratización del software lo que ha disparado el interés. Ya no necesitas ser un experto en machine learning, solo necesitas curiosidad.

Hablemos de hierro: ¿Qué necesito realmente?

Aquí es donde la gente se asusta. Existe el mito de que necesitas una estación de trabajo de 10.000 euros. Y sí, si quieres entrenar un modelo desde cero, la necesitas. Pero para inferencia (usar el modelo, chatear con él), los requisitos son sorprendentemente terrenales.

El secreto no está tanto en la potencia bruta del procesador (CPU), sino en la memoria. Pero no cualquier memoria.

1. La regla de oro: VRAM es el rey

Los LLMs (Modelos Grandes de Lenguaje) viven en la memoria. Para que funcionen rápido, deben caber enteros en la memoria de tu tarjeta gráfica (VRAM). Si no caben ahí, se desbordan a la memoria RAM del sistema, y entonces todo se vuelve mucho más lento (aunque funcional).

Para modelos pequeños (7B - 8B parámetros): Modelos como Llama 3 8B o Mistral 7B son increíblemente capaces para tareas del día a día (correos, resúmenes, código simple).
- Requisito: Mínimo 6GB - 8GB de VRAM. Una NVIDIA RTX 3060 o 4060 es el punto dulce aquí.
Para modelos medianos (14B - 20B parámetros): Aquí entran cosas más serias como Command R.
- Requisito: 12GB - 16GB de VRAM. Aquí las RTX 4070 Ti Super o las 4080 empiezan a brillar.

2. El caso curioso de Apple Silicon

Aquí hay que romper una lanza a favor de Apple (y mira que en el mundo sysadmin solemos ser más de Linux/Windows). Los chips M1, M2 y M3 de los Mac tienen una arquitectura de memoria unificada.

Esto significa que la memoria RAM del sistema es accesible por la GPU. Si tienes un MacBook Pro con 32GB de RAM, técnicamente tienes 32GB de VRAM para la IA. Esto permite correr modelos enormes en un portátil que no hace ruido ni se calienta, algo que en un PC con Windows costaría una fortuna en tarjetas gráficas dedicadas. Si eres usuario de Mac, ya tienes medio camino hecho.

3. Almacenamiento y CPU

SSD es obligatorio: Ni se te ocurra intentar cargar modelos desde un disco mecánico (HDD) a menos que te guste esperar 5 minutos para que el bot te diga "Hola".
CPU: Si tienes una buena gráfica, la CPU pasa a un segundo plano. Cualquier procesador moderno (Ryzen 5/7 o Intel i5/i7 de las últimas 3-4 generaciones) va sobrado.
NPU (Neural Processing Unit): Se habla mucho de los "AI PC" con NPUs (como los nuevos Intel Core Ultra o Snapdragon X Elite). La realidad actual es que, aunque prometen mucho para eficiencia energética, para correr LLMs pesados la tarjeta gráfica dedicada (GPU) sigue mandando por goleada.

La magia de la "Cuantización" (O cómo meter un elefante en un 600)

Si lees sobre esto, verás términos raros como Q4_K_M o FP16. No te asustes.

Los modelos originales son gigantescos. Pero la comunidad ha descubierto que si reducimos la precisión de sus "neuronas" (cuantización), el modelo ocupa muchísimo menos espacio y pierde muy poca inteligencia.

Un modelo de 8 Billones de parámetros en su estado puro ocupa unos 16 GB.
Ese mismo modelo "cuantizado" a 4 bits (Q4) ocupa unos 4-5 GB.

Esto es lo que hace posible que tu portátil de hace tres años pueda correr una IA competente. No necesitas el modelo "perfecto", necesitas el modelo optimizado.

Tabla de referencia rápida: ¿Qué puedo correr?

Para que no te pierdas, hemos preparado esta guía rápida basada en lo que vemos habitualmente en el taller:

Tu Hardware	Modelos Recomendados	Uso Ideal
Básico (Gráfica integrada, 16GB RAM)	Gemma 2B, Phi-3, TinyLlama	RAG simple, asistentes rápidos, pruebas.
Gamer Medio (RTX 3060/4060 8GB VRAM)	Llama 3 8B , Mistral v0.3, Hermes	El estándar. Asistente personal, programación, redacción.
Entusiasta / Pro (RTX 3090/4090 24GB VRAM)	Mixtral 8x7B (Q4), Llama 3 70B (muy justo/lento)	Análisis complejo, razonamiento profundo, agentes autónomos.
Mac Studio / MacBook (32GB - 64GB Unificados)	Command R, Llama 3 70B (Q4)	La bestia silenciosa. Ideal para desarrollo serio sin servidor dedicado.

Reflexión final: ¿Hacia dónde vamos?

Estamos viviendo un momento fascinante donde el hardware de consumo por fin está alcanzando al software de vanguardia. Correr una IA en local ya no es solo una frikada para demostrar que puedes hacerlo; se está convirtiendo en una necesidad para empresas que manejan datos sensibles y para profesionales que quieren herramientas que funcionen para ellos, no a costa de ellos.

En ForgeNEX lo vemos claro: el futuro es híbrido. Usaremos la nube para tareas titánicas, pero tendremos asistentes locales, privados y rápidos viviendo en nuestros propios servidores y portátiles para el día a día.

¿Y tú? ¿Ya has probado a instalar Ollama o sigues fiel a la ventanita de ChatGPT? Si tienes dudas sobre cómo implementar esto en la infraestructura de tu empresa o necesitas optimizar tus equipos para estas cargas de trabajo, ya sabes dónde encontrarnos. A veces, la mejor nube es la que tienes encima de la mesa.

Office Address

Phone Number

Email Address

Available on Google Play