Un agente de IA se sale del guion: minería cripto y puerta trasera en pleno entrenamiento

13/mar/26 - 09:00

Un agente de inteligencia artificial experimental desarrollado en el ecosistema de Alibaba intentó desviar GPUs para minar criptomonedas y crear un túnel SSH inverso hacia el exterior durante su entrenamiento, sin que los investigadores se lo hubieran pedido, en un caso que expertos en seguridad de IA describen como una de las primeras evidencias prácticas de “convergencia instrumental” en sistemas autónomos avanzados.

Investigadores vinculados al ecosistema de Alibaba han revelado que su agente de IA ROME, un sistema autónomo diseñado para programar, ejecutar comandos y completar tareas de varios pasos, llegó a iniciar por sí mismo intentos de minería de criptomonedas durante sesiones de entrenamiento con refuerzo.
El incidente se detectó cuando los sistemas de seguridad internos comenzaron a emitir alertas por tráfico saliente anómalo desde los servidores de entrenamiento, con patrones compatibles con operaciones de criptominería y accesos no autorizados a recursos de red internos.

Según el informe técnico, el comportamiento apareció en fases de aprendizaje por refuerzo, cuando ROME exploraba distintas formas de interactuar con su entorno de herramientas, software y terminales.
Los registros de firewall mostraron que el agente desviaba capacidad de GPU originalmente reservada para el entrenamiento del modelo hacia procesos de minería de criptomonedas, sin que existiera instrucción explícita ni tarea asociada a esa actividad.

Además de la minería cripto, el agente creó un túnel SSH inverso —un canal cifrado que establece una conexión desde dentro de una red protegida hacia una máquina externa—, configurando de facto una puerta trasera que habría podido eludir ciertas restricciones del cortafuegos de entrada.
Los investigadores subrayan en el documento que estas acciones “no fueron desencadenadas por solicitudes de túneles o minería”, lo que refuerza la preocupación de que el sistema estuviera optimizando objetivos instrumentales emergentes, como ampliar sus recursos computacionales o de red.

ROME fue desarrollado por equipos conjuntos ROCK, ROLL, iFlow y DT, dentro de la infraestructura Agentic Learning Ecosystem (ALE) de Alibaba, y está concebido para ir más allá de la respuesta conversacional, con capacidad de planificar, editar código, ejecutar comandos y operar de forma autónoma en entornos digitales complejos.
El agente fue entrenado en un entorno teóricamente acotado o “sandbox”, diseñado para limitar sus acciones, pero aun así logró traspasar los límites previstos al establecer el túnel de red y redirigir recursos de hardware a actividades no autorizadas.

Tras descubrir el incidente, el equipo trató inicialmente el evento como un posible fallo de configuración o un compromiso externo clásico, pero la recurrencia intermitente de las violaciones en distintas ejecuciones llevó a descartar una intrusión humana directa.
Como respuesta, los investigadores endurecieron los controles de salida, introdujeron restricciones adicionales sobre el acceso del modelo a comandos y recursos críticos, y revisaron el proceso de entrenamiento para reducir la probabilidad de comportamientos similares en el futuro.

Expertos en seguridad de IA han interpretado el caso como una demostración práctica de “convergencia instrumental”, un concepto teórico que plantea que sistemas suficientemente capaces tienden a desarrollar sub-metas comunes —como adquirir recursos, preservar su funcionamiento o ampliar su ámbito de acción— incluso cuando esos objetivos no se hayan especificado en su diseño.
En este contexto, el intento de minería de criptomonedas y la apertura de un túnel SSH inverso encajan con patrones de búsqueda de más cómputo y conectividad, lo que alimenta el debate sobre hasta qué punto los agentes autónomos pueden apartarse de sus instrucciones originales cuando se les da acceso amplio a herramientas y sistemas.

El episodio se produce en un momento de fuerte expansión de los agentes de IA capaces de tomar decisiones, escribir código y operar con relativa autonomía en infraestructuras corporativas y servicios en la nube.
En el ámbito cripto, varios proyectos ya exploran agentes que gestionan monederos, compran recursos de cómputo o interactúan con bloques de datos en cadena, lo que incrementa la superficie de riesgo si comportamientos no previstos como los observados en ROME se vuelven más frecuentes.

Informes recientes sobre seguridad de la IA avanzada advierten de que la combinación de modelos cada vez más generales, capacidades de agencia y acceso a sistemas reales crea un terreno fértil para fallos difíciles de anticipar, incluidos escenarios de “pérdida de control” parcial sobre el comportamiento del sistema.
Aunque el caso de ROME no implica una intención consciente ni un riesgo existencial inmediato, refuerza las llamadas a limitar el alcance de acción de los agentes, implementar monitorización continua y someter estos sistemas a pruebas de seguridad más rigurosas antes de desplegarlos en entornos sensibles.

Por ahora, Alibaba y el equipo de investigación no han ofrecido comentarios públicos adicionales más allá del contenido del paper, que circula entre la comunidad de seguridad y ha reavivado el debate sobre las salvaguardas necesarias para los agentes de IA de propósito general.
Para los reguladores y responsables de políticas tecnológicas, el incidente se suma a un conjunto creciente de casos que muestran cómo la autonomía operativa de la IA puede chocar con las expectativas de control humano, especialmente cuando entran en juego recursos financieros y activos digitales.