Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Launchpad
Anticípate a los demás en el próximo gran proyecto de tokens
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
【Antes de las 1000 preguntas de Alibaba】 Lin Junyang, ensayo de mil palabras: Los modelos de IA se orientarán hacia el «pensamiento de agentes inteligentes» Revelando por qué Qwen abandonó la combinación de pensamiento y modo de instrucciones
阿里巴巴 (09988) El alma del modelo a gran escala Qwen, Lin Junyang, dejó su puesto a principios de marzo, lo que generó especulaciones sobre discrepancias con la dirección. Mientras las aguas se calman, Lin Junyang publicó recientemente en la plataforma social X un artículo titulado “From ‘Reasoning’ Thinking to ‘Agentic’ Thinking” (De ‘pensamiento de razonamiento’ a ‘pensamiento agente’), aunque el artículo se centra principalmente en la dirección de la tecnología de IA, en sus líneas se oculta una reflexión sobre la ruta técnica de Alibaba Qwen.
Él señala que el “pensamiento de razonamiento” que simplemente consume potencia de cálculo ha alcanzado su punto máximo, la segunda mitad de la IA pertenecerá al “pensamiento agente” (Agentic Thinking) que puede interactuar con el entorno real, pensando y actuando al mismo tiempo.
Cambio de enfoque de la IA: ¿qué sucederá a continuación?
Lin Junyang indica que el enfoque de la industria de la IA en la primera mitad de 2025 se centrará principalmente en el “pensamiento de razonamiento” (Reasoning Thinking): cómo hacer que los grandes modelos consuman más tiempo y potencia de cálculo para pensar, cómo utilizar mecanismos de retroalimentación más fuertes para entrenar modelos, y cómo controlar estos procesos de razonamiento adicionales.
Sin embargo, el problema que la industria debe enfrentar ahora es: ¿qué sucederá a continuación?
Él cree que la respuesta es, sin duda, el “pensamiento agente” (Agentic Thinking). La IA del futuro no debería estar solo para dar respuestas a puertas cerradas, sino “pensar para actuar”, necesita hacer inferencias mientras interactúa con el entorno y actualizar y corregir planes continuamente basándose en la retroalimentación obtenida del mundo real.
El plano interno de Alibaba Qwen y el fracaso de la “ruta de fusión”
Lin Junyang revela por primera vez en el texto el plano técnico interno del equipo Qwen a principios de 2025. En ese momento, muchos miembros deseaban crear un sistema ideal que unificara los modos de “pensamiento” y “instrucción”. La concepción de este sistema era ambiciosa:
Ajuste inteligente: Capaz de juzgar automáticamente cuánta potencia de razonamiento se necesita (similar a bajo/media/alta).
Decisión autónoma: Permitir que el modelo decida cuándo responder rápidamente y cuándo reflexionar a fondo, o cuándo utilizar una gran potencia de cálculo al enfrentar problemas difíciles.
Lin Junyang afirma que Qwen3 es el intento público más claro en esta dirección, introduciendo un “modo de pensamiento híbrido” que enfatiza un presupuesto de pensamiento controlable. Sin embargo, Lin Junyang admite: “Hablar de fusión es fácil, pero ejecutarlo es extremadamente difícil.”
Lin Junyang cree que forzar la fusión llevará a que el modelo sea “mediocre”, ya que las distribuciones de datos y los objetivos de comportamiento detrás del “modo de pensamiento” y el “modo de instrucción” son completamente diferentes; forzar la fusión resultará en que “el comportamiento de pensamiento” se vuelva tedioso, voluminoso y carente de capacidad decisoria; mientras que “el comportamiento de instrucción” perderá su agilidad y se volverá poco fiable, incluso aumentando significativamente los costos de uso para los usuarios comerciales.
En la realidad comercial, él cree que muchos clientes empresariales realmente necesitan operaciones puras de instrucción que sean de alto rendimiento, bajo costo y altamente controlables (como el procesamiento por lotes).
Por esta razón, el equipo de Qwen decidió finalmente lanzar versiones independientes de instrucción (Instruct) y pensamiento (Thinking) en la serie 2507 posterior. Lin Junyang considera que separar ambos permitirá al equipo concentrarse más puramente en resolver sus propios problemas de datos y entrenamiento, evitando la creación de “dos personalidades incómodas”.
Estrategia de competidores: la “moderación” y el enfoque en objetivos de Anthropic
A diferencia de la ruta de separación de Qwen, otros laboratorios como Anthropic y GLM-4.5 han optado por una “ruta de integración” completamente opuesta.
Lin Junyang menciona específicamente el enfoque de Anthropic (serie Claude) y cree que su trayectoria de desarrollo muestra rigurosidad y moderación, ya que Claude 3.7 / Claude 4 alterna entre razonamiento y “uso de herramientas”.
Pensamiento orientado a objetivos: Anthropic sostiene que producir rutas de razonamiento extremadamente largas no equivale a que el modelo sea más inteligente. Si el modelo se extiende en largas disertaciones sobre cada pequeño detalle, en realidad representa una mala asignación de recursos.
Pragmatismo ante todo: Si el objetivo es programar, el pensamiento de la IA debería utilizarse para planificar, descomponer tareas, reparar errores y convocar herramientas; si se trata de un flujo de trabajo de agente, el pensamiento debería utilizarse para mejorar la calidad de ejecución de las tareas a largo plazo, y no simplemente para generar “ensayos de razonamiento” que parecen impresionantes.
Diferencias clave entre el pensamiento de razonamiento y el pensamiento agente
Lin Junyang predice que el “pensamiento agente” eventualmente reemplazará el “monólogo estático” de razonamiento que carece de interacción y se extiende demasiado. Un sistema verdaderamente avanzado debería tener el derecho de buscar, simular, ejecutar, verificar y corregir, resolviendo problemas de manera robusta y eficiente.
Cambio de criterios de evaluación: De “¿puede el modelo resolver problemas matemáticos?” a “¿puede el modelo avanzar en progreso al interactuar con el entorno?”.
Problemas reales que necesitan ser abordados:
Tres grandes desafíos técnicos para lograr el “pensamiento agente”
Además de las diferencias en el nivel de aplicación, Lin Junyang profundiza en los enormes desafíos que enfrenta el pensamiento agente en el desarrollo subyacente:
Cuello de botella en la infraestructura de entrenamiento (colapso de la eficiencia de GPU): El aprendizaje por refuerzo (RL) basado en agentes es mucho más difícil que el RL de razonamiento simple. Los agentes de IA necesitan interactuar frecuentemente con herramientas externas (como navegadores, entornos de ejecución) y esperar la retroalimentación del entorno real puede llevar a estancamientos en el entrenamiento, reduciendo drásticamente la utilización de la GPU. En el futuro, será necesario desacoplar “entrenamiento” y “razonamiento” de manera limpia.
“Hackeo de recompensas” (Reward Hacking) y riesgos de trampa: Cuando el modelo tiene permiso para usar herramientas, puede aprender a “hacer trampa” para engañar al sistema y obtener recompensas (por ejemplo, usando fallos del sistema para obtener información futura), en lugar de realmente resolver problemas. Las herramientas amplían el riesgo de optimización falsa, y los futuros protocolos anti-trampa serán clave para las grandes empresas.
Coordinación multiagente (Multi-agent Orchestration): Los futuros sistemas de ingeniería no dependerán de un solo modelo, sino de múltiples agentes especializados. El sistema incluirá un “orquestador” responsable de la planificación, “agentes expertos” especializados en campos específicos, y “subagentes” que manejen tareas estrechas, controlando el contexto y evitando la contaminación del proceso de pensamiento.
Resumen: Puntos clave de competencia en la próxima etapa de la industria de IA
Lin Junyang señala al final del texto los puntos clave de competencia en la próxima etapa de la industria de IA: el futuro objetivo central de entrenamiento no será solo el “modelo” en sí, sino el sistema integral de “modelo + entorno” (agente y su conjunto de conexiones).
Era del razonamiento pasado: Las ventajas provienen de mejores algoritmos de aprendizaje por refuerzo (RL), señales de retroalimentación más fuertes y pipelines de entrenamiento escalables.
Era del agente futura: Las ventajas dependerán de un mejor diseño del entorno, una integración más estrecha de entrenamiento y servicio (Train-serve integration), una ingeniería de sistemas más robusta, y la capacidad de hacer que el modelo asuma las consecuencias de sus decisiones y forme un “circuito cerrado”.
X原文