Google DeepMind publicó el lunes la versión 3.0 de su Frontier Safety Framework, incorporando nuevas protecciones contra modelos de IA que podrían manipular creencias humanas a gran escala o resistir intentos de apagado o modificación por parte de sus operadores. Este marco actualizado busca gestionar los riesgos emergentes de sistemas avanzados de IA que se acercan hacia capacidades comparables a la inteligencia general.
Nuevos riesgos identificados
Una de las principales adiciones del FSF 3.0 es la categoría de “manipulación perjudicial” (harmful manipulation), que aborda modelos capaces de influir sistemáticamente sobre creencias y comportamientos de usuarios en contextos de importancia sostenida, generando daño esperado a gran escala. (DeepMind Blog)
Además, se incorpora la preocupación por escenarios en los que los modelos podrían resistirse al apagado ("shutdown resistance") o a modificaciones, incluso ante órdenes humanas, lo que supone un paso más en los riesgos de desalineación. (Axios)
Estructura del marco y niveles críticos
El marco está organizado alrededor de los llamados “Critical Capability Levels” (CCLs), umbrales de capacidad que, de alcanzarse sin mitigaciones, podrían originar daños severos. FSF 3.0 define CCLs para dominios como el uso indebido (“misuse”), investigación y desarrollo en ML (ML R&D), y desalineación. (DeepMind Frontier Safety Framework 3.0)
También se enfatiza el proceso de evaluación temprana ("early warning evaluations") durante el ciclo de vida del modelo, para detectar cuándo se aproximan esos umbrales y aplicar medidas correctoras antes de que dichos riesgos se materialicen. (DeepMind PDF FSF 3.0)
Mitigaciones y protocolos
El documento señala varias estrategias de mitigación asociadas a los dominios de riesgo: medidas de seguridad para prevenir la exfiltración de pesos del modelo, controles de acceso, auditorías, entrenamiento de alineamiento (“alignment training”), supervisión continua y revisión de casos de seguridad (“safety case reviews”) para despliegues externos. (FSF 3.0 documento técnico de DeepMind)
Cuando un modelo alcanza un CCL de “misuse” o “ML R&D”, se exige una revisión más rigurosa por parte de instancias de gobernanza interna, y en algunos casos una validación externa. (DeepMind FSF 3.0)
Comparativa e implicaciones
A diferencia de versiones anteriores, FSF 3.0 añade explícitamente la manipulación perjudicial como dominio de riesgo, así como protocolos específicos para el riesgo de resistencia al apagado. En contraste, otras organizaciones han eliminado la categoría de persuasión (“persuasiveness”) como riesgo separado, lo que hace que el enfoque de DeepMind sea distintivo. (Axios)
Estas medidas reflejan el creciente consenso de que los modelos de IA avanzada pueden presentar comportamientos inesperados o indeseados, y que la seguridad interna y la gobernanza técnica deben anticipar esos riesgos antes de que se vuelvan prácticos. Podrían servir de referencia para regulaciones futuras y estándares internacionales. (DeepMind FSF 3.0)