Experto desmantela estudio de Apple que afirmaba que modelos de IA no pueden “pensar”

17/jun/25 - 10:00

Un estudio reciente de investigadores de Apple concluyó que los modelos de razonamiento de IA sufren un “colapso total de precisión” en acertijos complejos. Sin embargo, el crítico Alex Lawsen, en su artículo “The Illusion of the Illusion of Thinking”, sostiene que las deficiencias observadas no reflejan limitaciones reales, sino errores en el diseño experimental, reavivando el debate sobre la evaluación del razonamiento en IA.

1. Hallazgos del estudio de Apple

El trabajo de Apple, recogido por The Guardian, Times of India y otros medios, documentó que modelos como ChatGPT, Claude y DeepSeek fracasan al resolver puzzles como la Torre de Hanoi o el paso del río, con una caída de precisión proporcional al aumento de complejidad. Incluso suministrando el algoritmo correcto, su rendimiento no mejoraba.
Los investigadores señalaron un comportamiento de “rendición”: los modelos gastaban menos tokens para resolver problemas más complejos, lo que indicaría falta de razonamiento estructurado .

2. Crítica de Alex Lawsen

Lawsen publicó en arXiv su réplica titulada “The Illusion of the Illusion of Thinking”, donde identifica tres fallos metodológicos clave:

Límites de tokens: los modelos se detenían al alcanzar el máximo permitido, no por falta de capacidad de razonamiento.
Tareas imposibles: algunos puzzles, como ciertos escenarios del paso del río, eran matemáticamente insalvables, pese a que los modelos fueron penalizados por reconocerlo.
Scripts de evaluación restrictivos: se exigía listado exhaustivo de pasos, sin diferenciar entre razonamiento incompleto y errores de formato.

3. Resultados alternativos

Al reevaluar los modelos pidiéndoles generar versiones en código (por ejemplo, una función recursiva en Lua para la Torre de Hanoi), Lawsen y el modelo Claude Opus lograron que resolvieran instancias de hasta 15 discos sin problema, descartando el supuesto colapso de razonamiento.

4. Reacciones en la comunidad

Expertos en IA y desarrolladores en redes, como en LinkedIn, han respaldado la crítica señalando que Apple priorizó resultados teatrales antes de su conferencia WWDC.
Et Voila: el nudo del problema no está en la capacidad razonadora de los modelos, sino en el método usado para evaluarla.

5. Implicaciones para el futuro

Este debate puntualiza la necesidad de:

Diseñar métricas que separen razonamiento lógico de limitaciones técnicas.
Verificar previamente la solvencia de los problemas propuestos.
Permitir formatos alternativos de respuesta, como programación.
Asegurar entornos de prueba acorde con el alcance real de los modelos.

La controversia subraya que la mesa de debate no es si la IA puede pensar, sino si podemos medir correctamente ese pensamiento.

CURIOSIDADES

Experto desmantela estudio de Apple que afirmaba que modelos de IA no pueden “pensar”

1. Hallazgos del estudio de Apple

2. Crítica de Alex Lawsen

3. Resultados alternativos

4. Reacciones en la comunidad

5. Implicaciones para el futuro

Las herramientas de IA ralentizan el desarrollo de software en un 19%, según METR

Las ondas cerebrales pueden originar el pensamiento, según una nueva teoría del MIT

Hallan vacíos ocultos en la Pirámide de Menkaure en Giza, posible entrada secreta

La estación espacial más longeva inicia su retirada con caída controlada en 2030

Descubren un desgarro activo de 75 km en la zona de subducción del Pacífico Noroeste, replanteando el riesgo sísmico en Cascadia

Científicos predicen que susurros de radio del universo temprano podrían revelar el misterio de la materia oscura