Lawsen refuta el estudio de Apple sobre el colapso del razonamiento en IA

Experto desmantela estudio de Apple que afirmaba que modelos de IA no pueden “pensar”

Robot pensando
Un estudio reciente de investigadores de Apple concluyó que los modelos de razonamiento de IA sufren un “colapso total de precisión” en acertijos complejos. Sin embargo, el crítico Alex Lawsen, en su artículo “The Illusion of the Illusion of Thinking”, sostiene que las deficiencias observadas no reflejan limitaciones reales, sino errores en el diseño experimental, reavivando el debate sobre la evaluación del razonamiento en IA.

1. Hallazgos del estudio de Apple

El trabajo de Apple, recogido por The Guardian, Times of India y otros medios, documentó que modelos como ChatGPT, Claude y DeepSeek fracasan al resolver puzzles como la Torre de Hanoi o el paso del río, con una caída de precisión proporcional al aumento de complejidad. Incluso suministrando el algoritmo correcto, su rendimiento no mejoraba.
Los investigadores señalaron un comportamiento de “rendición”: los modelos gastaban menos tokens para resolver problemas más complejos, lo que indicaría falta de razonamiento estructurado .

2. Crítica de Alex Lawsen

Lawsen publicó en arXiv su réplica titulada “The Illusion of the Illusion of Thinking”, donde identifica tres fallos metodológicos clave:

  • Límites de tokens: los modelos se detenían al alcanzar el máximo permitido, no por falta de capacidad de razonamiento.

  • Tareas imposibles: algunos puzzles, como ciertos escenarios del paso del río, eran matemáticamente insalvables, pese a que los modelos fueron penalizados por reconocerlo.

  • Scripts de evaluación restrictivos: se exigía listado exhaustivo de pasos, sin diferenciar entre razonamiento incompleto y errores de formato.

3. Resultados alternativos

Al reevaluar los modelos pidiéndoles generar versiones en código (por ejemplo, una función recursiva en Lua para la Torre de Hanoi), Lawsen y el modelo Claude Opus lograron que resolvieran instancias de hasta 15 discos sin problema, descartando el supuesto colapso de razonamiento.

4. Reacciones en la comunidad

Expertos en IA y desarrolladores en redes, como en LinkedIn, han respaldado la crítica señalando que Apple priorizó resultados teatrales antes de su conferencia WWDC.
Et Voila: el nudo del problema no está en la capacidad razonadora de los modelos, sino en el método usado para evaluarla.

5. Implicaciones para el futuro

Este debate puntualiza la necesidad de:

  • Diseñar métricas que separen razonamiento lógico de limitaciones técnicas.

  • Verificar previamente la solvencia de los problemas propuestos.

  • Permitir formatos alternativos de respuesta, como programación.

  • Asegurar entornos de prueba acorde con el alcance real de los modelos.

La controversia subraya que la mesa de debate no es si la IA puede pensar, sino si podemos medir correctamente ese pensamiento.