Adversa AI descubre fallo grave en agente de codificación de Anthropic

10/abr/26 - 09:00

Una vulnerabilidad crítica en Claude Code, el agente de codificación terminal de Anthropic, permitía a atacantes eludir las reglas de seguridad de los desarrolladores mediante cadenas de más de 50 subcomandos en instrucciones de shell. El fallo fue hallado por Adversa AI tras una filtración accidental del código fuente a finales de marzo y ha sido parcheado en la versión 2.1.90.

Claude Code es una herramienta CLI impulsada por IA que asiste a desarrolladores en tareas de programación desde la terminal, con mecanismos para analizar y validar comandos antes de su ejecución. La vulnerabilidad radicaba en el límite de análisis de seguridad: la herramienta examina detalladamente hasta 50 subcomandos en cadenas complejas para evitar problemas de rendimiento, pero al superar ese umbral muestra solo una confirmación general al usuario.

Esto facilitaba la ejecución silenciosa de comandos maliciosos, ya que las comprobaciones detalladas se saltaban para prompts largos. Adversa AI, firma israelí de seguridad en IA, identificó el problema tras acceder al código fuente filtrado en el paquete npm de Claude Code v2.1.88, que incluía accidentalmente el mapa de fuentes completo con más de 500.000 líneas de código.

La filtración, causada por un error humano en el empaquetado, expuso no solo la lógica de seguridad sino también funciones inéditas y detalles internos de la herramienta. Anthropic confirmó el incidente y enfatizó que no derivó de una brecha, sino de una actualización rutinaria mal gestionada.

El exploit permitía a actores maliciosos configurar reglas de seguridad que se ignoraban en comandos extensos, potencialmente ejecutando código no autorizado en entornos de desarrollo. Check Point Research y otros grupos habían reportado vulnerabilidades similares previas en Claude Code, como inyecciones de shell vía hooks y exfiltración de claves API (CVE-2025-59536, corregida en v1.0.111).

Anthropic ha desplegado el parche en v2.1.90, que corrige el bypass y refuerza las validaciones en cadenas largas. La compañía recomendó a usuarios actualizar inmediatamente y revisar configuraciones en flujos CI/CD, donde el riesgo es mayor por la ejecución automatizada.

El incidente subraya los desafíos de seguridad en herramientas de IA generativa para desarrollo, donde la integración con shells y entornos sensibles amplifica los riesgos de jailbreak y ejecución remota de código. Expertos aconsejan auditorías regulares y verificación de confianza en repositorios no propios.