GPUHammer: primer RowHammer exitoso en GPUs degrada modelos de IA al 1 %

14/jul/25 - 11:47

Investigadores de la Universidad de Toronto han desarrollado GPUHammer, la primera variante RowHammer efectiva contra GPUs NVIDIA con memoria GDDR6 como la A6000. Este ataque de un solo bit reduce la precisión de modelos de inteligencia artificial del entorno del 80 % a menos del 1 %, incluso con mitigaciones existentes.

1. ¿Qué es GPUHammer?
GPUHammer es una explotación hardware de RowHammer aplicada por primera vez con éxito a GPUs discretas, específicamente la NVIDIA A6000 con GDDR6. Al alterar físicamente un bit en memoria —mediante activaciones intensivas de filas adyacentes— logra modificaciones sutiles pero devastadoras en los datos de modelos de IA .

2. Impacto real en modelos de IA
Con un solo bit alterado —por ejemplo, el bit más significativo del exponente en un peso FP16— la precisión en redes como ResNet50, VGG16, DenseNet161 y otras cayó de un promedio del 80 % a menos del 1 % (hasta un solo 0,1 %).

3. Retos técnicos superados
Los investigadores tuvieron que:

invertir el mapeo físico de memoria GDDR6 (dirección a banco/fila),
desarrollar “hammering” en paralelo (hasta 500 000 activaciones por ventana de refresco),
sincronizar el ataque con comandos de refresco para evadir mitigaciones como TRR.

4. Respuesta de NVIDIA
En su aviso de seguridad del 9 de julio de 2025, NVIDIA confirma la vulnerabilidad en GPUs A6000 con ECC desactivado y recuerda que habilitar el System-Level ECC previene eficazmente el ataque. No obstante, esto puede conllevar una pérdida de capacidad de memoria (~6,5 %) y ralentización del rendimiento (hasta un 10 %).

5. Alcance en otras arquitecturas
El exploit fue probado en A6000, pero podría extenderse a otras GPU con GDDR6. Las series Hopper y Blackwell con ECC en chip lo protegen por defecto. La técnica podría reproducirse, por lo que se recomienda activar ECC en entornos compartidos, especialmente nube y centros de datos.

6. Implicaciones para infraestructura de IA
Este ataque evidencia un nuevo vector: corrupción silenciosa de modelos entrenados o desplegados, incluso sin acceso software directo. Afecta especialmente sistemas multiusuario o virtualizados, como en la nube, donde una GPU compartida podría ser explotada para sabotear otros modelos.

7. Recomendaciones y mitigaciones

Habilitar ECC en GPU compatibles (comando nvidia‑smi -e 1).
Monitorizar logs de ECC para detectar bit-flips recurrentes.
Aislamiento de memoria entre usuarios.
Incluir validación de integridad de modelos en pipelines críticos (hashes, checksums)