Seis Revoluções de IA em 2025: O Guia de Andrej Karpathy para as Maiores Mudanças na Indústria

2026-01-28 15:20:05

O panorama da inteligência artificial passou por mudanças sísmicas ao longo de 2025, com transformações tão fundamentais que redesenharam a forma como pensamos sobre aprendizagem de máquina, desenvolvimento de software e interação humano-computador. Andrej Karpathy, um destacado investigador e tecnólogo em IA, identificou seis grandes mudanças evolutivas que alteraram profundamente o campo. Estas não são melhorias incrementais—representam momentos de avanço que desafiaram suposições existentes e abriram possibilidades completamente novas.

A Emergência da Aprendizagem de Recompensa Verificável: Além do Feedback Humano

Durante anos, a pilha de treino de produção para grandes modelos de linguagem seguiu um processo previsível de três fases: pré-treinamento (como GPT-2 e GPT-3 de 2020), ajuste supervisionado (InstructGPT em 2022) e aprendizagem por reforço a partir de feedback humano (RLHF, também 2022). Esta abordagem provou ser estável e madura, dominando a estratégia da indústria para construir LLMs de nível de produção.

Até 2025, ocorreu uma mudança fundamental. A aprendizagem por reforço baseada em recompensas verificáveis (RLVR) tornou-se a tecnologia central adotada pelos principais laboratórios de IA. A distinção é crucial: em vez de confiar no julgamento humano para avaliar as saídas do modelo, o RLVR aproveita ambientes automaticamente verificáveis—resolução de problemas matemáticos, desafios de programação e domínios similares onde a correção pode ser determinada de forma objetiva.

Modelos treinados desta forma desenvolvem espontaneamente o que os humanos reconheceriam como “estratégias de raciocínio”. Aprendem a dividir problemas complexos em etapas intermediárias de cálculo e descobrem múltiplos caminhos de solução através de refinamento iterativo. O modelo o1 da OpenAI (lançado no final de 2024) ofereceu o primeiro vislumbre dessa capacidade, enquanto o lançamento subsequente do o3 (início de 2025) demonstrou o potencial dramático dessa abordagem. O artigo DeepSeek-R1 forneceu evidências adicionais de como esses ambientes verificáveis permitem que os modelos construam cadeias de raciocínio explícitas.

O que torna o RLVR diferente das abordagens anteriores é a intensidade computacional exigida. Ao contrário do ajuste supervisionado e do RLHF—que envolvem fases relativamente breves e de complexidade computacional modesta—o treino com recompensas verificáveis exige ciclos de otimização prolongados contra funções de recompensa objetivas e determinísticas. Isso significa que os recursos computacionais originalmente destinados ao pré-treinamento estão sendo redirecionados para esse novo paradigma de treino. A inovação-chave: a capacidade do modelo pode agora ser ajustada como uma função do custo computacional em tempo de teste, gerando cadeias de inferência mais longas e oferecendo mais “tempo de raciocínio”. Isso representa uma dimensão totalmente nova de comportamento de escalabilidade.

Compreendendo a Inteligência Artificial: Entidades Fantasmagóricas em vez de Criaturas Digitais

Em 2025, a indústria ganhou uma nova perspetiva sobre como a inteligência artificial realmente funciona. Andrej Karpathy articulou uma perceção que ressoou por todo o campo: não estamos “cruzando animais digitais”, mas sim “evocando fantasmas”—entidades fundamentalmente diferentes, cuja inteligência emerge de objetivos de otimização completamente distintos dos sistemas biológicos.

A distinção importa profundamente. Redes neurais humanas evoluíram através da seleção natural em cenários de sobrevivência tribal. Modelos de linguagem grandes são otimizados para replicar texto humano, alcançar altas pontuações em problemas matemáticos e obter aprovação em avaliações humanas. Dadas essas pressões evolutivas totalmente diferentes, não é surpreendente que a inteligência resultante se manifeste de formas radicalmente distintas.

Isso leva a uma observação marcante: a inteligência artificial exibe um padrão irregular, de dentes de serra, em vez de curvas de capacidade suaves. Os modelos podem demonstrar conhecimento enciclopédico num momento, enquanto lutam com raciocínio elementar no seguinte. Podem mostrar tanto brilhantismo quanto confusão profunda, capazes de gerar soluções notáveis ou vazar dados sensíveis sob pressão adversária.

Essa perceção tem implicações profundas na forma como avaliamos o progresso da IA. Benchmarks, que representam ambientes verificáveis, tornaram-se suscetíveis à otimização por RLVR. Equipes de IA constroem cada vez mais ambientes de treino que espelham de perto as embeddings dos benchmarks, cobrindo eficientemente essas zonas específicas de capacidade. “Treinar no conjunto de teste” tornou-se uma prática padrão da indústria. O resultado: modelos podem vencer todos os benchmarks disponíveis, permanecendo longe de alcançar uma inteligência artificial geral.

O Fenómeno Cursor: Uma Nova Camada de Aplicação Surge

A ascensão rápida do Cursor ao longo de 2025 revelou algo inesperado sobre a arquitetura de aplicações de IA. O que começou como um editor de código especializado evoluiu para um paradigma mais amplo, estimulando discussões sobre “Cursor para o domínio X” em várias indústrias.

A verdadeira inovação do Cursor reside em demonstrar como construir uma nova camada de aplicações de LLM. O princípio fundamental: aplicações especializadas orquestram múltiplas chamadas a LLMs em grafos acíclicos direcionados cada vez mais sofisticados, equilibrando desempenho e custo computacional. Estes sistemas lidam com “engenharia de contexto”—identificando, recuperando e priorizando as informações mais relevantes para cada consulta. Fornecem interfaces gráficas específicas de domínio que mantêm os humanos nos ciclos de decisão e oferecem mecanismos de ajuste que permitem aos utilizadores aumentar ou diminuir a autonomia do modelo conforme as necessidades da tarefa.

A perspetiva de Andrej Karpathy sobre esta camada sugere um futuro onde plataformas de grandes modelos de linguagem evoluem para “capacidades de nível de pós-graduação generalistas”, enquanto aplicações especializadas transformam esses generalistas em “equipes de especialistas” ao fornecer dados privados, sensores ambientais, atuadores e ciclos de feedback contínuo para mercados verticais específicos.

Claude Code: Agentes Inteligentes a Rodar no Seu Computador

O Claude Code da Anthropic marcou um momento decisivo na forma como os agentes de IA operam em ambientes humanos. Demonstrou de forma convincente como o uso de ferramentas e a inferência podem ciclar-se iterativamente, permitindo a resolução de problemas complexos e persistentes ao longo de interações prolongadas.

O que distinguiu o Claude Code de abordagens concorrentes foi a sua estratégia radical de localização. Em vez de implantar agentes em ambientes de contêiner na cloud (como a abordagem da OpenAI), o Claude Code roda diretamente no computador pessoal do utilizador. Este modelo de execução local integra profundamente a IA com os ficheiros privados, aplicações, ambiente de desenvolvimento e conhecimento contextual do utilizador—informação que seria extraordinariamente difícil de transmitir a servidores remotos.

Num período de transição caracterizado por um desenvolvimento desigual de capacidades, esta escolha de design revela um pensamento estratégico genuíno. Implantar agentes diretamente ao lado dos desenvolvedores nos seus ambientes de trabalho representa um caminho de desenvolvimento mais lógico do que construir clusters distribuídos na cloud. O Claude Code traduziu essa perceção numa interface elegante e imponente—transformando a IA de um site que requer visitas deliberadas numa presença inteligente e pequena, embutida no espaço de trabalho digital do utilizador.

Vibe Coding: Programar Sem Código

Até meados de 2025, a IA tinha ultrapassado um limiar crítico de capacidade: a habilidade de construir aplicações sofisticadas usando descrições em linguagem natural, sem que os programadores precisassem entender a implementação subjacente. O conceito capturou rapidamente a imaginação, a tal ponto que a expressão casual de Andrej Karpathy “Vibe Coding” numa publicação passageira nas redes sociais evoluiu para um movimento em toda a indústria.

O Vibe Coding democratiza fundamentalmente a programação. As barreiras profissionais dissolvem-se quando qualquer pessoa pode descrever o que quer em linguagem natural e receber código funcional. Andrej Karpathy documentou a sua própria experiência usando Vibe Coding para desenvolver rapidamente um tokenizador BPE personalizado em Rust, evitando a necessidade de conhecimentos profundos de linguagem—código que “nunca teria sido escrito de outra forma” se as exigências tradicionais de programação permanecessem.

As implicações vão além da acessibilidade. Desenvolvedores profissionais ganham uma liberdade renovada para construir protótipos exploratórios, testar ideias arquitetónicas com custos mínimos e criar aplicações de uso único para investigações específicas. O código torna-se efémero e descartável. As fronteiras entre utilizadores e criadores desfazem-se. O desenvolvimento de software transforma-se num domínio onde pessoas comuns e desenvolvedores profissionais podem contribuir de forma significativa, remodelando definições de carreira e expectativas de competências técnicas.

Nano Banana e Além: Porque a IA Precisa de Interfaces Visuais

O Nano Banana da Google Gemini e desenvolvimentos similares representam, na avaliação de Andrej Karpathy, uma das mudanças mais transformadoras de 2025. A perceção mais ampla: grandes modelos de linguagem representam o próximo paradigma de computação, sucedendo às eras do computador pessoal e do microcomputador das décadas de 1970 e 1980.

Se esta comparação se sustentar, devemos esperar inovações semelhantes emergindo de fundamentos tecnológicos semelhantes. A revolução da interface gráfica do utilizador do computing pessoal não chegou porque comandos de texto fossem impossíveis—eles funcionaram bem para especialistas—mas porque representações visuais correspondiam mais de perto às preferências cognitivas humanas.

O texto, embora primitivo do ponto de vista computacional, alinha-se mal com as preferências de entrada e padrões de consumo de informação humanos. Os humanos processam informações espaciais e gráficas de forma muito mais eficiente do que texto parseado. Preferem naturalmente receber informações através de imagens, diagramas, slides, quadros brancos e multimédia, em vez de decifrar sentenças.

As interfaces atuais de LLM operam via diálogo—essencialmente interações de linha de comando com texto, semelhantes à computação dos anos 1980. A questão de quem construirá a camada gráfica para a inteligência artificial permanece parcialmente aberta, mas produtos como Nano Banana apontam para a resposta. O que distingue o Nano Banana não é apenas a capacidade de geração de imagens, mas sim a síntese integrada de geração de texto, criação visual e conhecimento do mundo, entrelaçada na estrutura de pesos do modelo.

Estes seis avanços—desde a otimização por recompensas verificáveis até interfaces visuais, passando por feedback humano dependente, agentes de IA a rodar localmente, especialização e programação acessível—revelam uma indústria em transformação radical. Os quadros que orientaram o desenvolvimento de IA no início dos anos 2020 deram lugar a abordagens fundamentalmente novas, cada uma abrindo possibilidades que pareciam impossíveis há apenas meses. Como as observações de Andrej Karpathy reforçam, 2025 será lembrado não por progressos incrementais, mas pelo momento em que a inteligência artificial se reinventou de forma fundamental.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.