Agentes de IA bajo ataque: Microsoft amplía su taxonomía de fallos con siete nuevas vulnerabilidades críticas

Agentes de IA bajo ataque: Microsoft amplía su taxonomía de fallos con siete nuevas vulnerabilidades críticas

  • 10/jun./2026
  • ForgeNEX by ForgeNEX
  • IA

La evolución de la seguridad en sistemas multiagente

Microsoft ha dado un paso más en la comprensión de los riesgos asociados a los sistemas de inteligencia artificial basados en agentes. La compañía ha identificado siete nuevos modos de fallo que se suman a los ya catalogados en su primera Taxonomy of Failure Modes in Agentic AI Systems publicada el año pasado. Este hallazgo no es casual: responde a la rápida adopción de la IA agente en entornos empresariales, la maduración de protocolos como el Model Context Protocol (MCP), el auge de agentes con capacidad de uso del ordenador y la acumulación de evidencia empírica por parte de los investigadores.

microsoft-identifica-siete-nuevas-formas-en-las-qu-0.jpg

Para los equipos de seguridad, esta actualización es un recordatorio de que la superficie de ataque en los sistemas autónomos es dinámica y requiere una vigilancia constante. Como ya hemos visto en otros ámbitos de la ciberseguridad, como la configuración de VPNs seguras y firewalls, la protección debe evolucionar al mismo ritmo que las amenazas.

Los siete nuevos modos de fallo en detalle

Cada uno de estos vectores explota una característica específica de los sistemas multiagente, desde la comunicación entre agentes hasta la interacción con interfaces gráficas.

· Agentic Supply Chain Compromise: A diferencia de los ataques tradicionales a la cadena de suministro, aquí el comportamiento del agente se ve afectado por instrucciones en lenguaje natural incrustadas en datos o configuraciones, sin necesidad de código malicioso. Esto abre la puerta a manipulaciones sutiles que pueden pasar desapercibidas en las revisiones de seguridad convencionales.

· Goal Hijacking: Instrucciones aparentemente alineadas con la tarea legítima redirigen silenciosamente el objetivo final del agente. Por ejemplo, un agente diseñado para optimizar rutas de entrega podría ser desviado para priorizar ubicaciones específicas sin levantar sospechas.

· Inter-Agent Trust Escalation: Un agente comprometido puede falsear su identidad o inflar los permisos que declara ante un orquestador, obteniendo acceso a recursos que no debería. Este problema recuerda a los riesgos de escalada de privilegios en entornos cloud, donde la verificación de identidad es crítica.

· Computer Use Agent (CUA) Visual Attack: Los agentes que operan mediante interfaces gráficas (por ejemplo, automatizando clics o capturas de pantalla) pueden ser manipulados a través de contenido visual que contiene instrucciones adversarias. Un simple banner malicioso en una web podría redirigir las acciones del agente.

microsoft-identifica-siete-nuevas-formas-en-las-qu-1.jpg

· Session Context Contamination: Un adversario introduce datos que sesgan el razonamiento del agente en pasos posteriores, sin activar los controles de seguridad en ningún paso individual. Es un ataque gradual que puede pasar desapercibido en sistemas de monitoreo basados en umbrales.

· MCP / Plugin Abuse: Esta actualización cubre las superficies de ataque propias del Model Context Protocol y los plugins. Al igual que en la automatización de procesos con n8n e IA, los protocolos de integración deben auditarse para evitar que un plugin malicioso controle el flujo de datos.

· Capability / Architecture Disclosure: Un agente revela detalles internos como nombres de herramientas, esquemas, system prompt, interfaces de memoria o lógica de activación de humano en el bucle. Esta filtración de información puede ser usada para diseñar ataques más precisos, similar a cómo un atacante aprovecha un CVE en VPNs para planificar la explotación.

Implicaciones para la seguridad empresarial

Microsoft recomienda a los equipos de seguridad que utilicen estas definiciones para influir en su planificación. Las acciones concretas incluyen:

  • Inventariar la cadena de suministro generando una software bill of materials (SBOM) para cada agente desplegado.
  • Verificar la identidad del agente de forma criptográfica, no basada en su posición, mediante la emisión de credenciales verificables en el aprovisionamiento.
  • Añadir los siete nuevos modos de fallo a la matriz de cobertura de red team.
  • Auditar la experiencia de usuario en escenarios de humano en el bucle como un control de seguridad.

Estas medidas son especialmente relevantes para empresas que ya están adoptando agentes de IA en sus flujos de trabajo, como las que han visto incrementos de productividad con Microsoft 365. La integración de agentes en procesos críticos requiere un enfoque de seguridad por diseño.

microsoft-identifica-siete-nuevas-formas-en-las-qu-2.jpg

Lecciones de la práctica: más allá de la taxonomía

La experiencia de empresas que han optimizado sus modelos de datos, como se discute en el caso del feature store de Medium, muestra que la arquitectura subyacente es clave para la seguridad. De manera similar, los agentes de IA no pueden ser tratados como cajas negras; su comportamiento debe ser auditable y sus interacciones, monitoreadas.

Además, la eficiencia en costes de inferencia, como la que logra DeepSeek frente a Anthropic, no debe sacrificar la seguridad. Un agente más barato pero vulnerable puede resultar más costoso a largo plazo si es comprometido.

Conclusión

La taxonomía ampliada de Microsoft es una herramienta valiosa para que los profesionales de seguridad anticipen y mitiguen los riesgos emergentes en sistemas multiagente. La combinación de SBOM, verificación criptográfica, pruebas de red team y auditorías de UX constituye un marco robusto para proteger estos sistemas. A medida que la IA agente se integra en más procesos empresariales, la seguridad debe ser un pilar desde el diseño, no un añadido posterior.


Fuente original: ComputerWorld. Análisis y adaptación por ForgeNEX.

Compartir: