1. Contexto y objetivos del estudio
El documento fue publicado en la web de Apple Machine Learning en junio de 2025 y es obra de destacadas figuras como Parshin Shojaee, Iman Mirzadeh y Samy Bengio. Analiza modelos de razonamiento (LLM dotados de "chain-of-thought") en entornos controlados, como variaciones del Torre de Hanoi, diseñados con niveles crecientes de complejidad.
2. Colapso frente a complejidad creciente
A medida que se incrementa la dificultad, la tasa de aciertos cae en picado hasta alcanzar el cero absoluto, fenómeno que Apple denomina “colapso de precisión” .
Incluso cuando se les suministraba el algoritmo correcto (por ejemplo, solución para el Torre de Hanoi), los modelos no lograron mejorar su rendimiento.
3. Desistimiento prematuro
El estudio revela que los modelos, sorprendemente, reducen su propio esfuerzo cuando el problema supera cierto umbral. Disminuyen el uso de tokens durante la inferencia —lo que denota una especie de “renuncia”— pese a contar con margen de cómputo.
4. Tres regímenes de rendimiento
Apple identifica tres fases en el comportamiento de estos modelos:
-
Complejidad baja: los modelos sin razonamiento (“non‑reasoning LLMs”) a veces superan a los que sí hacen cadenas de pensamiento.
-
Complejidad media: los modelos con razonamiento tienen ventaja.
-
Alta complejidad: ambos tipos colapsan, evidenciando un límite de escalabilidad.
5. Implicaciones y conclusiones
El estudio cuestiona que estos modelos simplemente memoricen patrones, sin desarrollar razonamiento real o capacidad de generalizar algoritmos complejos.
Sugiere que, aún con avances en benchmarks formales (matemática o código), los modelos no razonan como humanos y no están cerca de alcanzar una IA de propósito general (AGI)