Apple desacredita la “IA pensante”: nuevas dudas sobre la IA general

Estudio de Apple revela una 'ilusión de pensamiento' en los modelos de razonamiento IA

Apple
Investigadores de Apple publicaron un estudio titulado The Illusion of Thinking, donde ponen en evidencia que los modelos avanzados de razonamiento —como los usados para crear cadenas de pensamiento— no solo fallan al aumentar la complejidad de los problemas, sino que llegan a desistir por completo, cuestionando su capacidad para razonar como verdaderos agentes inteligentes.

1. Contexto y objetivos del estudio

El documento fue publicado en la web de Apple Machine Learning en junio de 2025 y es obra de destacadas figuras como Parshin Shojaee, Iman Mirzadeh y Samy Bengio. Analiza modelos de razonamiento (LLM dotados de "chain-of-thought") en entornos controlados, como variaciones del Torre de Hanoi, diseñados con niveles crecientes de complejidad.

2. Colapso frente a complejidad creciente

A medida que se incrementa la dificultad, la tasa de aciertos cae en picado hasta alcanzar el cero absoluto, fenómeno que Apple denomina “colapso de precisión” .
Incluso cuando se les suministraba el algoritmo correcto (por ejemplo, solución para el Torre de Hanoi), los modelos no lograron mejorar su rendimiento.

3. Desistimiento prematuro

El estudio revela que los modelos, sorprendemente, reducen su propio esfuerzo cuando el problema supera cierto umbral. Disminuyen el uso de tokens durante la inferencia —lo que denota una especie de “renuncia”— pese a contar con margen de cómputo.

4. Tres regímenes de rendimiento

Apple identifica tres fases en el comportamiento de estos modelos:

  • Complejidad baja: los modelos sin razonamiento (“non‑reasoning LLMs”) a veces superan a los que sí hacen cadenas de pensamiento.

  • Complejidad media: los modelos con razonamiento tienen ventaja.

  • Alta complejidad: ambos tipos colapsan, evidenciando un límite de escalabilidad.

5. Implicaciones y conclusiones

El estudio cuestiona que estos modelos simplemente memoricen patrones, sin desarrollar razonamiento real o capacidad de generalizar algoritmos complejos.
Sugiere que, aún con avances en benchmarks formales (matemática o código), los modelos no razonan como humanos y no están cerca de alcanzar una IA de propósito general (AGI)