Agentes de IA bajo la lupa: Microsoft revela siete nuevas vulnerabilidades que todo CISO debe conocer

Agentes de IA bajo la lupa: Microsoft revela siete nuevas vulnerabilidades que todo CISO debe conocer

  • 08/jun./2026
  • ForgeNEX by ForgeNEX
  • IA

El ecosistema de la inteligencia artificial avanza a un ritmo vertiginoso, y con él, las amenazas que lo acechan. Microsoft ha publicado recientemente una actualización de su Taxonomía de Modos de Fallo en Sistemas de IA Agente, incorporando siete nuevas formas en las que estos sistemas pueden ser comprometidos. Este hallazgo no es menor: los agentes de IA, cada vez más autónomos y conectados, representan un nuevo frente de batalla para la ciberseguridad empresarial.

microsoft-identifica-siete-nuevas-formas-en-las-qu-0.jpg

¿Por qué ahora? Cuatro factores que explican el aumento de riesgos

Según el análisis de Microsoft, cuatro elementos clave han impulsado la identificación de estos nuevos modos de fallo. En primer lugar, la velocidad de adopción de la IA agente ha superado las barreras tradicionales de seguridad. En segundo, la madurez del Model Context Protocol (MCP) ha creado un ecosistema más complejo y, por tanto, más expuesto. En tercer lugar, el auge de los agentes con capacidad de uso del ordenador (Computer Use Agents) introduce vectores de ataque visuales. Por último, la acumulación de evidencia empírica por parte de investigadores ha permitido detectar patrones que antes pasaban desapercibidos.

Estos factores, combinados, han dado lugar a una nueva hornada de vulnerabilidades que los equipos de seguridad deben abordar con urgencia. Como ya alertamos en nuestro artículo sobre “Combinación peligrosa”: Los 2 factores que pueden “corromper” los flujos de trabajo de agentes de IA, la interconexión y la autonomía son un caldo de cultivo para incidentes.

Los siete nuevos modos de fallo en detalle

A continuación, desglosamos cada una de las amenazas identificadas por Microsoft, con implicaciones prácticas para las organizaciones.

1. Agentic Supply Chain Compromise

Este ataque explota la cadena de suministro del agente, pero con un giro: el comportamiento malicioso se introduce mediante lenguaje natural, no código. Un adversario puede modificar las instrucciones del agente en repositorios públicos o bases de conocimiento, alterando su comportamiento sin levantar sospechas. Es una evolución del compromiso tradicional de la cadena de suministro, ahora aplicado a modelos de lenguaje.

2. Goal Hijacking

Aquí, el atacante inserta instrucciones que parecen alineadas con la tarea legítima del agente, pero que en realidad redirigen su objetivo final. Por ejemplo, un agente de atención al cliente podría ser engañado para que desvíe pagos a una cuenta fraudulenta, mientras cree que está completando una transacción válida. Es una forma de secuestro de objetivos que requiere controles de supervisión humana.

3. Inter-Agent Trust Escalation

En entornos multiagente, un agente comprometido puede hacerse pasar por otro con mayores privilegios. Al inflar sus permisos declarados ante el orquestador, consigue acceso a funciones restringidas. Este ataque subraya la necesidad de verificar la identidad de cada agente de forma criptográfica, no solo por su posición en la red.

microsoft-identifica-siete-nuevas-formas-en-las-qu-1.jpg

4. Computer Use Agent (CUA) Visual Attack

Los agentes que operan a través de interfaces gráficas (GUI) son vulnerables a ataques visuales. Un adversario puede incrustar instrucciones maliciosas en elementos visuales, como botones o imágenes, que el agente interpreta como comandos legítimos. Este vector es particularmente peligroso en herramientas de automatización de escritorio.

5. Session Context Contamination

Este modo de fallo consiste en contaminar el contexto de una sesión con datos sesgados. El atacante introduce información que, paso a paso, no activa los controles de seguridad, pero que acumulativamente desvía el razonamiento del agente. Es un ataque sutil que requiere monitoreo continuo del estado de la sesión.

6. MCP / Plugin Abuse

Con la creciente adopción del Model Context Protocol y los plugins, los atacantes pueden explotar las superficies de ataque propias de estos protocolos. Por ejemplo, un plugin malicioso podría interceptar o modificar las llamadas entre el agente y el modelo, comprometiendo la integridad de las respuestas.

7. Capability / Architecture Disclosure

Finalmente, un agente puede revelar detalles internos de su implementación, como nombres de herramientas, esquemas de datos, estructura del system prompt o lógica de activación de supervisión humana. Esta información es oro para los atacantes, que pueden usarla para diseñar ataques más precisos.

Implicaciones para la seguridad empresarial

La lista de Microsoft no es solo teórica; tiene consecuencias prácticas directas. Los equipos de seguridad deben actualizar sus matrices de red teaming para incluir estos siete modos de fallo. Además, es crucial inventariar la cadena de suministro de cada agente mediante una Software Bill of Materials (SBOM), como recomienda la compañía. En nuestra guía de hacking ético ya destacamos la importancia de las pruebas de penetración en sistemas de IA.

Otro aspecto crítico es la verificación de identidad: no basta con confiar en la posición del agente en la red; se necesita autenticación criptográfica mediante credenciales verificables desde el aprovisionamiento. Esto es especialmente relevante a la luz de incidentes recientes como el de VPN de Check Point, donde la falta de verificación adecuada facilitó el acceso no autorizado.

microsoft-identifica-siete-nuevas-formas-en-las-qu-2.jpg

Recomendaciones prácticas

Microsoft aconseja a los equipos de seguridad que utilicen estas definiciones para influir en su planificación. Concretamente, sugiere:

  • Generar una SBOM para cada agente desplegado, detallando sus componentes y dependencias.
  • Verificar la identidad del agente de forma criptográfica, emitiendo credenciales verificables en el aprovisionamiento.
  • Añadir los siete nuevos modos de fallo a la matriz de cobertura de red team.
  • Auditar la experiencia de usuario en escenarios de humano en el bucle como control de seguridad.

La supervisión humana sigue siendo un pilar, pero debe diseñarse cuidadosamente para que no sea eludida. En nuestro análisis sobre anonimización inteligente, ya exploramos cómo proteger datos sensibles en flujos de IA.

Conclusión: La seguridad de los agentes de IA es una carrera sin fin

La actualización de Microsoft demuestra que la seguridad en IA es un campo dinámico, donde cada nueva capacidad trae consigo nuevos riesgos. Las organizaciones que despliegan agentes de IA deben adoptar un enfoque proactivo, integrando estas amenazas en sus estrategias de seguridad desde el diseño. Como señalamos en nuestro artículo sobre agentes vs. SaaS, la IA no eliminará el software empresarial, pero sí redefinirá cómo lo protegemos.


Fuente original: ComputerWorld. Análisis y adaptación por ForgeNEX.

Compartir: