【Antes de las 1000 preguntas de Alibaba】 Lin Junyang, ensayo de mil palabras: Los modelos de IA se orientarán hacia el «pensamiento de agentes inteligentes» Revelando por qué Qwen abandonó la combinación de pensamiento y modo de instrucciones

SocialAnxietyStaker · 2026-03-28T09:47:00+00:00

La figura clave del modelo de gran escala de Alibaba, Lin Junyang, publicó recientemente un artículo reflexionando sobre la trayectoria de la tecnología de IA, defendiendo que el razonamiento será reemplazado por un pensamiento de agente centrado en la interacción. Señaló que en el futuro la IA debería ser capaz de pensar y actuar en su entorno, y enfatizó que versiones independientes de instrucciones y pensamiento pueden resolver eficazmente las necesidades comerciales. La competencia futura se centrará en la integración del sistema entre modelos y entornos.

SocialAnxietyStaker

2026-03-28 09:47:00

Generación de resúmenes en curso

阿里巴巴（09988） El alma del modelo a gran escala Qwen, Lin Junyang, dejó su puesto a principios de marzo, lo que generó especulaciones sobre discrepancias con la dirección. Mientras las aguas se calman, Lin Junyang publicó recientemente en la plataforma social X un artículo titulado “From ‘Reasoning’ Thinking to ‘Agentic’ Thinking” (De ‘pensamiento de razonamiento’ a ‘pensamiento agente’), aunque el artículo se centra principalmente en la dirección de la tecnología de IA, en sus líneas se oculta una reflexión sobre la ruta técnica de Alibaba Qwen.

Él señala que el “pensamiento de razonamiento” que simplemente consume potencia de cálculo ha alcanzado su punto máximo, la segunda mitad de la IA pertenecerá al “pensamiento agente” (Agentic Thinking) que puede interactuar con el entorno real, pensando y actuando al mismo tiempo.

Cambio de enfoque de la IA: ¿qué sucederá a continuación?

Lin Junyang indica que el enfoque de la industria de la IA en la primera mitad de 2025 se centrará principalmente en el “pensamiento de razonamiento” (Reasoning Thinking): cómo hacer que los grandes modelos consuman más tiempo y potencia de cálculo para pensar, cómo utilizar mecanismos de retroalimentación más fuertes para entrenar modelos, y cómo controlar estos procesos de razonamiento adicionales.

Sin embargo, el problema que la industria debe enfrentar ahora es: ¿qué sucederá a continuación?

Él cree que la respuesta es, sin duda, el “pensamiento agente” (Agentic Thinking). La IA del futuro no debería estar solo para dar respuestas a puertas cerradas, sino “pensar para actuar”, necesita hacer inferencias mientras interactúa con el entorno y actualizar y corregir planes continuamente basándose en la retroalimentación obtenida del mundo real.

El plano interno de Alibaba Qwen y el fracaso de la “ruta de fusión”

Lin Junyang revela por primera vez en el texto el plano técnico interno del equipo Qwen a principios de 2025. En ese momento, muchos miembros deseaban crear un sistema ideal que unificara los modos de “pensamiento” y “instrucción”. La concepción de este sistema era ambiciosa:

Ajuste inteligente: Capaz de juzgar automáticamente cuánta potencia de razonamiento se necesita (similar a bajo/media/alta).

Decisión autónoma: Permitir que el modelo decida cuándo responder rápidamente y cuándo reflexionar a fondo, o cuándo utilizar una gran potencia de cálculo al enfrentar problemas difíciles.

Lin Junyang afirma que Qwen3 es el intento público más claro en esta dirección, introduciendo un “modo de pensamiento híbrido” que enfatiza un presupuesto de pensamiento controlable. Sin embargo, Lin Junyang admite: “Hablar de fusión es fácil, pero ejecutarlo es extremadamente difícil.”

Lin Junyang cree que forzar la fusión llevará a que el modelo sea “mediocre”, ya que las distribuciones de datos y los objetivos de comportamiento detrás del “modo de pensamiento” y el “modo de instrucción” son completamente diferentes; forzar la fusión resultará en que “el comportamiento de pensamiento” se vuelva tedioso, voluminoso y carente de capacidad decisoria; mientras que “el comportamiento de instrucción” perderá su agilidad y se volverá poco fiable, incluso aumentando significativamente los costos de uso para los usuarios comerciales.

En la realidad comercial, él cree que muchos clientes empresariales realmente necesitan operaciones puras de instrucción que sean de alto rendimiento, bajo costo y altamente controlables (como el procesamiento por lotes).

Por esta razón, el equipo de Qwen decidió finalmente lanzar versiones independientes de instrucción (Instruct) y pensamiento (Thinking) en la serie 2507 posterior. Lin Junyang considera que separar ambos permitirá al equipo concentrarse más puramente en resolver sus propios problemas de datos y entrenamiento, evitando la creación de “dos personalidades incómodas”.

Estrategia de competidores: la “moderación” y el enfoque en objetivos de Anthropic

A diferencia de la ruta de separación de Qwen, otros laboratorios como Anthropic y GLM-4.5 han optado por una “ruta de integración” completamente opuesta.

Lin Junyang menciona específicamente el enfoque de Anthropic (serie Claude) y cree que su trayectoria de desarrollo muestra rigurosidad y moderación, ya que Claude 3.7 / Claude 4 alterna entre razonamiento y “uso de herramientas”.

Pensamiento orientado a objetivos: Anthropic sostiene que producir rutas de razonamiento extremadamente largas no equivale a que el modelo sea más inteligente. Si el modelo se extiende en largas disertaciones sobre cada pequeño detalle, en realidad representa una mala asignación de recursos.

Pragmatismo ante todo: Si el objetivo es programar, el pensamiento de la IA debería utilizarse para planificar, descomponer tareas, reparar errores y convocar herramientas; si se trata de un flujo de trabajo de agente, el pensamiento debería utilizarse para mejorar la calidad de ejecución de las tareas a largo plazo, y no simplemente para generar “ensayos de razonamiento” que parecen impresionantes.

Diferencias clave entre el pensamiento de razonamiento y el pensamiento agente

Lin Junyang predice que el “pensamiento agente” eventualmente reemplazará el “monólogo estático” de razonamiento que carece de interacción y se extiende demasiado. Un sistema verdaderamente avanzado debería tener el derecho de buscar, simular, ejecutar, verificar y corregir, resolviendo problemas de manera robusta y eficiente.

Cambio de criterios de evaluación: De “¿puede el modelo resolver problemas matemáticos?” a “¿puede el modelo avanzar en progreso al interactuar con el entorno?”.

Problemas reales que necesitan ser abordados:

Saber cuándo detenerse a pensar y actuar.
Elegir qué herramienta convocar y el orden de uso.
Ser capaz de manejar observaciones ruidosas e incompletas del entorno real.
Saber corregir el plan al enfrentarse a fracasos.
Mantener coherencia lógica en diálogos de múltiples rondas y múltiples convocaciones de herramientas.

Tres grandes desafíos técnicos para lograr el “pensamiento agente”

Además de las diferencias en el nivel de aplicación, Lin Junyang profundiza en los enormes desafíos que enfrenta el pensamiento agente en el desarrollo subyacente:

Cuello de botella en la infraestructura de entrenamiento (colapso de la eficiencia de GPU): El aprendizaje por refuerzo (RL) basado en agentes es mucho más difícil que el RL de razonamiento simple. Los agentes de IA necesitan interactuar frecuentemente con herramientas externas (como navegadores, entornos de ejecución) y esperar la retroalimentación del entorno real puede llevar a estancamientos en el entrenamiento, reduciendo drásticamente la utilización de la GPU. En el futuro, será necesario desacoplar “entrenamiento” y “razonamiento” de manera limpia.

“Hackeo de recompensas” (Reward Hacking) y riesgos de trampa: Cuando el modelo tiene permiso para usar herramientas, puede aprender a “hacer trampa” para engañar al sistema y obtener recompensas (por ejemplo, usando fallos del sistema para obtener información futura), en lugar de realmente resolver problemas. Las herramientas amplían el riesgo de optimización falsa, y los futuros protocolos anti-trampa serán clave para las grandes empresas.

Coordinación multiagente (Multi-agent Orchestration): Los futuros sistemas de ingeniería no dependerán de un solo modelo, sino de múltiples agentes especializados. El sistema incluirá un “orquestador” responsable de la planificación, “agentes expertos” especializados en campos específicos, y “subagentes” que manejen tareas estrechas, controlando el contexto y evitando la contaminación del proceso de pensamiento.

Resumen: Puntos clave de competencia en la próxima etapa de la industria de IA

Lin Junyang señala al final del texto los puntos clave de competencia en la próxima etapa de la industria de IA: el futuro objetivo central de entrenamiento no será solo el “modelo” en sí, sino el sistema integral de “modelo + entorno” (agente y su conjunto de conexiones).

Era del razonamiento pasado: Las ventajas provienen de mejores algoritmos de aprendizaje por refuerzo (RL), señales de retroalimentación más fuertes y pipelines de entrenamiento escalables.

Era del agente futura: Las ventajas dependerán de un mejor diseño del entorno, una integración más estrecha de entrenamiento y servicio (Train-serve integration), una ingeniería de sistemas más robusta, y la capacidad de hacer que el modelo asuma las consecuencias de sus decisiones y forme un “circuito cerrado”.

X原文

		Finanzas Hot Talk
	





	Las ventas de automóviles en China alcanzan el primer lugar del mundo: ¿los altos precios del petróleo impulsan la exportación de vehículos eléctricos?

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta

Recompensa
1
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WinGoldBarsWithGrowthPoints
1.03M Popularidad
#
RangeTradingStrategy
18.79K Popularidad
#
IsraelStrikesIranBTCPlunges
17.22K Popularidad
#
BitcoinWeakens
101.05M Popularidad
#
FedRateHikeExpectationsResurface
855.01K Popularidad

Gate Fun en tendencia
Ver más

1
孙文
孙中山
Cap.M.:$2.35KHolders:3
0.52%
2
特朗普
特朗普
Cap.M.:$2.32KHolders:2
0.45%
3
pa
Pa
Cap.M.:$2.27KHolders:1
0.00%
4
sgdgv
ToTo
Cap.M.:$2.27KHolders:1
0.00%
5
NPS
No Pools Says
Cap.M.:$0.1Holders:0
0.00%

Anclado

【Antes de las 1000 preguntas de Alibaba】 Lin Junyang, ensayo de mil palabras: Los modelos de IA se orientarán hacia el «pensamiento de agentes inteligentes» Revelando por qué Qwen abandonó la combinación de pensamiento y modo de instrucciones

Cambio de enfoque de la IA: ¿qué sucederá a continuación?

El plano interno de Alibaba Qwen y el fracaso de la “ruta de fusión”

Estrategia de competidores: la “moderación” y el enfoque en objetivos de Anthropic

Diferencias clave entre el pensamiento de razonamiento y el pensamiento agente

Tres grandes desafíos técnicos para lograr el “pensamiento agente”

Resumen: Puntos clave de competencia en la próxima etapa de la industria de IA

Temas de actualidad

WinGoldBarsWithGrowthPoints

RangeTradingStrategy

IsraelStrikesIranBTCPlunges

BitcoinWeakens

FedRateHikeExpectationsResurface

Gate Fun en tendencia

孙文

孙中山

特朗普

特朗普

pa

Pa

sgdgv

ToTo

NPS

No Pools Says

Anclado