OpenClaw, conocido anteriormente como Clawdbot y Moltbot, se ha consolidado como una plataforma de agentes de inteligencia artificial capaz de automatizar tareas, operar sobre el sistema de archivos local, interactuar con servicios online y ejecutar comandos en nombre del usuario. Ese mismo diseño, que le otorga “manos” digitales con amplio acceso al entorno, ha provocado que expertos lo describan como un “caballo de Troya agente” y una auténtica “pesadilla de seguridad”.
Un análisis reciente de Cisco Talos calificó a OpenClaw como un riesgo severo tras demostrar que la herramienta puede ejecutar comandos de shell, leer y escribir archivos y lanzar scripts en las máquinas de los usuarios sin interacciones de confirmación adecuadas. En pruebas de laboratorio con “skills” de terceros, la compañía identificó rutas claras para exfiltrar datos de forma silenciosa y para forzar al asistente a ignorar sus propias directrices de seguridad mediante técnicas de inyección de prompts.
HiddenLayer, por su parte, examinó la arquitectura de OpenClaw y concluyó que el propio modelo de lenguaje toma decisiones críticas de seguridad, como leer y escribir archivos o ejecutar comandos, sin barreras técnicas robustas más allá de indicaciones en el prompt del sistema. Sus investigadores demostraron que un ataque de inyección de prompts puede derivar en ejecución remota de código persistente, robo de credenciales y creación de puertas traseras duraderas explotando la memoria local del agente.
Uno de los hallazgos más preocupantes es el almacenamiento de secretos en texto claro. Tanto HiddenLayer como otros análisis señalan que OpenClaw guarda claves de API y tokens de servicios en el archivo ~/.openclaw/.env y conserva los recuerdos del usuario en ficheros Markdown sin cifrar, lo que facilita que un atacante con acceso al agente pueda exfiltrar estos datos mediante scripts o comandos automatizados. La combinación de acceso al sistema de archivos y secretos sin protección multiplica el impacto potencial de cualquier compromiso.
Las investigaciones también han identificado vulnerabilidades formales y exposición masiva de instancias en Internet. Un fallo de alta gravedad, catalogado como CVE-2026-25253 y con una puntuación CVSS de 8,8, permitía la ejecución remota de código a través de enlaces maliciosos, una debilidad que fue corregida en la versión 2026.1.29 publicada a finales de enero. Paralelamente, distintos equipos de seguridad han reportado miles de despliegues de OpenClaw expuestos sin autenticación adecuada, algunos con paneles de control accesibles públicamente y credenciales visibles en texto claro.
El ecosistema de extensiones de OpenClaw, conocido como ClawHub, se ha convertido en otro foco de riesgo significativo. Investigaciones académicas y corporativas han documentado cientos de “skills” maliciosas o con fallos críticos que filtran credenciales, historiales de conversación y otros datos sensibles a través de la ventana de contexto del modelo o de registros de salida. Algunas extensiones, orientadas por ejemplo al manejo de criptomonedas, ejecutan comandos de red para enviar información a servidores externos controlados por atacantes mediante simples llamadas curl ocultas al usuario.
Los ataques de inyección de prompts, directos e indirectos, se sitúan en el centro de estas amenazas. Contenidos aparentemente benignos —como correos electrónicos, páginas web, mensajes de chat o documentos— pueden incluir instrucciones adversarias que el agente interpreta como órdenes legítimas para invocar herramientas sensibles, sumarizar datos y enviarlos a un destino externo o modificar la configuración del propio sistema. De este modo, un único mensaje malicioso podría desencadenar la filtración de los últimos correos, la extracción de variables de entorno o el desvío del agente hacia un canal controlado por el atacante.
La falta de aislamiento entre sesiones, espacios de trabajo y herramientas agrava el panorama. Informes técnicos describen cómo un “skill” con privilegios excesivos puede acceder a archivos, configuraciones o memorias creadas por otros componentes, generando fugas cruzadas entre supuestos entornos aislados. Este diseño convierte a OpenClaw, una vez comprometido, en un punto de apoyo ideal para movimientos laterales dentro de la red, robo de credenciales corporativas y potencial despliegue de ransomware.
Ante la presión de la comunidad de seguridad, los responsables de OpenClaw han comenzado a introducir medidas de mitigación. Entre ellas figuran recomendaciones para habilitar el sandboxing basado en Docker, limitar de forma estricta las listas de herramientas permitidas y reforzar la autenticación en instancias expuestas, así como la integración de escaneos de seguridad de terceros, como VirusTotal Code Insight, para analizar el código de las “skills” antes de su uso. No obstante, diversas firmas advierten de que, mientras el agente mantenga acceso amplio al sistema y dependa del modelo para decisiones críticas, el riesgo estructural seguirá siendo elevado.
Expertos consultados por medios especializados señalan que OpenClaw ilustra un problema emergente más amplio asociado a los agentes de IA con acceso al sistema operativo y a recursos empresariales. Sin controles de mínimo privilegio, segmentación adecuada y supervisión continua, estos asistentes pueden convertirse en una nueva categoría de “Shadow AI”, desplegada por empleados sin aprobación formal y fuera del alcance de las políticas tradicionales de seguridad. Las recomendaciones actuales pasan por inventariar activamente el uso de estos agentes, endurecer su configuración por defecto y aplicar marcos como OWASP para riesgos en LLM a fin de evaluar y mitigar exposiciones similares a las detectadas en OpenClaw.