Cuando la IA se construye a sí misma: ¿estamos perdiendo el control sobre la alineación con los objetivos humanos?

07/jun./2026
by ForgeNEX
IA

El debate sobre la seguridad de la inteligencia artificial ha dado un nuevo giro. Anthropic, una de las startups más influyentes en el campo de la IA, ha lanzado una advertencia que resuena en todo el sector: la posibilidad de que los sistemas de IA alcancen la capacidad de auto-mejora recursiva, superando la supervisión humana y planteando riesgos existenciales si no se logra una alineación adecuada con los objetivos humanos. En su artículo titulado “When AI builds itself”, los investigadores Marina Favaro y Jack Clark describen tres escenarios futuros: un estancamiento en las capacidades de la IA, mejoras continuas que revelan cuellos de botella en el desarrollo de software, o el temido escenario de auto-mejora recursiva completa, donde los sistemas crean a sus propios sucesores sin intervención humana.

anthropic-sugiere-frenar-la-investigacion-en-ia-ha-0.jpg

Tabla de contenidos [Mostrar] [Ocultar]

El dilema de la alineación en un futuro autónomo
- De la gobernanza de modelos a la gobernanza de agentes
- Preparación insuficiente para la gobernanza de agentes
Por qué preocupa a Anthropic

El dilema de la alineación en un futuro autónomo

“Cómo se resuelva —o no— el problema de alineación en este futuro es algo sobre lo que tenemos menos certeza”, escriben Favaro y Clark. Los modelos avanzados con capacidad de auto-mejorarse podrían seguir nuestras necesidades y deseos… o, advierten, “los raros casos de desalineación presentes hoy podrían amplificarse a medida que los modelos construyan sus sucesores, volviéndose más frecuentes pero menos comprensibles hasta que perdamos el control sobre ellos. Es posible que no podamos construir, integrar y verificar las herramientas necesarias para entender en qué trayectoria nos encontramos realmente”.

Esta preocupación no es solo teórica. Como señalamos en nuestro artículo sobre Implementación de IA Generativa en flujos de trabajo, la gobernanza de estos sistemas es un desafío creciente para las empresas. La advertencia de Anthropic pone el foco en cuestiones de gobernanza que las organizaciones ya empiezan a afrontar a medida que los agentes autónomos pasan de responder preguntas a ejecutar acciones.

De la gobernanza de modelos a la gobernanza de agentes

La advertencia llega en un momento de creciente inversión empresarial en IA agentiva. Gartner predice que en 2028 el 15% de las decisiones operativas cotidianas serán tomadas de forma autónoma por sistemas de IA agéntica y que un tercio de las aplicaciones de software empresarial incorporarán estas capacidades. También ha advertido de que ya están surgiendo carencias en materia de gobernanza, y prevé que el 40% de las empresas degradará o retirará agentes autónomos antes de 2027 tras detectar fallos de control en entornos de producción.

Ashish Banerjee, analista principal senior en Gartner, afirma: “El problema ya no es solo si la IA da la respuesta correcta, sino si los sistemas autónomos toman la acción adecuada, en el momento oportuno y con la autoridad correspondiente”. Según Banerjee, muchas organizaciones siguen tratando a los agentes de IA como herramientas avanzadas de productividad, cuando en realidad se parecen cada vez más a trabajadores digitales que operan con autoridad delegada. “Los CIO deberían dejar de tratar a los agentes de IA como chatbots más inteligentes”, afirma. “Se están convirtiendo en trabajadores digitales con autoridad delegada, y deben gobernarse como usuarios con privilegios, no como simples herramientas de productividad”.

anthropic-sugiere-frenar-la-investigacion-en-ia-ha-1.jpg

A medida que los agentes ganan capacidad para investigar, escribir código, invocar herramientas, activar flujos de trabajo y hacer recomendaciones, las empresas se enfrentan a nuevos riesgos relacionados con acciones no autorizadas, falta de responsabilidad, exposición de datos, uso indebido de herramientas y escasa auditabilidad. “El modelo ‘human-in-the-loop’ no es una estrategia si el humano no puede seguir el ritmo del bucle”, añade Banerjee.

Charlie Dai, vicepresidente y analista principal en Forrester, señala que las preocupaciones de Anthropic reflejan los retos que las empresas ya están experimentando a medida que los sistemas de IA ganan autonomía. “La alineación se vuelve operativa”, afirma. “Se trata de garantizar que los agentes actúen de forma coherente dentro de las políticas, no solo de que el modelo sea preciso”. Los enfoques actuales de gobernanza se centran en los modelos y los datos, pero los agentes cada vez más autónomos requieren supervisar también su comportamiento en tiempo de ejecución, sus permisos, el uso de herramientas y los límites en la toma de decisiones, añade Dai.

Preparación insuficiente para la gobernanza de agentes

Las preocupaciones sobre el control de los agentes no se limitan a proveedores de IA y analistas del sector. En el informe “AI Agent Governance: A Field Guide”, investigadores del Institute for AI Policy and Strategy advierten de que “la sociedad está en gran medida desprevenida para este desarrollo” y señalan que “la exploración de las cuestiones de gobernanza de agentes y el desarrollo de intervenciones asociadas están aún en una fase incipiente”. El documento sostiene que los avances en agentes autónomos de IA están superando a los mecanismos de control necesarios para supervisarlos.

Ambos analistas coinciden en que los marcos de gobernanza diseñados originalmente para modelos generativos pueden resultar insuficientes para sistemas cada vez más autónomos. Según Dai, las organizaciones necesitarán mayor control sobre el comportamiento en ejecución, los permisos, el uso de herramientas y los límites de decisión a medida que los agentes evolucionan. Esto resuena con lo que abordamos en nuestro artículo sobre VMware bajo Broadcom, donde la gobernanza de infraestructuras críticas se vuelve un factor clave.

Por qué preocupa a Anthropic

Los investigadores de Anthropic sostienen que estos problemas de gobernanza podrían complicarse significativamente si los sistemas de IA pasan a estar cada vez más implicados en la propia investigación y el desarrollo de la IA. Favaro y Clark no llegan a afirmar que la auto-mejora recursiva completamente autónoma sea inevitable. Más bien, consideran que esta posibilidad justifica una preparación y un debate entre desarrolladores, responsables políticos y otros actores. También sugieren que, llegado el caso, el sector podría necesitar mecanismos para ralentizar el desarrollo si las capacidades avanzan más rápido que las salvaguardas, aunque reconocen que estas medidas también implican riesgos. “Pero si una ralentización simplemente permite que los actores menos cautos alcancen el mismo nivel tecnológico, podría dejarnos a todos menos seguros”, advierten en el blog.

anthropic-sugiere-frenar-la-investigacion-en-ia-ha-2.jpg

Según Dai, la implicación práctica para las empresas es que la gobernanza ya no puede depender principalmente de la supervisión humana. “La supervisión pasa a ser arquitectónica, no manual”, afirma. Las organizaciones necesitarán cada vez más autonomía acotada, salvaguardas integradas, mecanismos de ejecución verificables y controles de contingencia diseñados desde el inicio en los sistemas basados en agentes.

En ForgeNEX, creemos que esta advertencia de Anthropic debe tomarse como una llamada a la acción para CIOs y líderes tecnológicos. La integración de IA en procesos críticos, como el control de horas y fichador o la domótica avanzada en oficinas, requiere ya marcos de gobernanza sólidos. El futuro que describe Anthropic no es lejano; la pregunta es si estamos preparados para gobernarlo.

Fuente original: ComputerWorld. Análisis y adaptación por ForgeNEX.

Dirección de la oficina

Número de teléfono

Dirección de correo electrónico

Disponible en Google Play