1. Hallazgos del estudio de Apple
El trabajo de Apple, recogido por The Guardian, Times of India y otros medios, documentó que modelos como ChatGPT, Claude y DeepSeek fracasan al resolver puzzles como la Torre de Hanoi o el paso del río, con una caída de precisión proporcional al aumento de complejidad. Incluso suministrando el algoritmo correcto, su rendimiento no mejoraba.
Los investigadores señalaron un comportamiento de “rendición”: los modelos gastaban menos tokens para resolver problemas más complejos, lo que indicaría falta de razonamiento estructurado .
2. Crítica de Alex Lawsen
Lawsen publicó en arXiv su réplica titulada “The Illusion of the Illusion of Thinking”, donde identifica tres fallos metodológicos clave:
-
Límites de tokens: los modelos se detenían al alcanzar el máximo permitido, no por falta de capacidad de razonamiento.
-
Tareas imposibles: algunos puzzles, como ciertos escenarios del paso del río, eran matemáticamente insalvables, pese a que los modelos fueron penalizados por reconocerlo.
-
Scripts de evaluación restrictivos: se exigía listado exhaustivo de pasos, sin diferenciar entre razonamiento incompleto y errores de formato.
3. Resultados alternativos
Al reevaluar los modelos pidiéndoles generar versiones en código (por ejemplo, una función recursiva en Lua para la Torre de Hanoi), Lawsen y el modelo Claude Opus lograron que resolvieran instancias de hasta 15 discos sin problema, descartando el supuesto colapso de razonamiento.
4. Reacciones en la comunidad
Expertos en IA y desarrolladores en redes, como en LinkedIn, han respaldado la crítica señalando que Apple priorizó resultados teatrales antes de su conferencia WWDC.
Et Voila: el nudo del problema no está en la capacidad razonadora de los modelos, sino en el método usado para evaluarla.
5. Implicaciones para el futuro
Este debate puntualiza la necesidad de:
-
Diseñar métricas que separen razonamiento lógico de limitaciones técnicas.
-
Verificar previamente la solvencia de los problemas propuestos.
-
Permitir formatos alternativos de respuesta, como programación.
-
Asegurar entornos de prueba acorde con el alcance real de los modelos.
La controversia subraya que la mesa de debate no es si la IA puede pensar, sino si podemos medir correctamente ese pensamiento.