Andrej Karpathyは、この層構造について、将来的には大規模言語モデルプラットフォームが「ジェネラリストの大学院レベルの能力」へと進化し、専門的なアプリケーションがそれらのジェネラリストを「エキスパートチーム」へと変貌させると示唆しています。これには、プライベートデータ、環境センサー、アクチュエータ、特定の垂直市場向けの継続的なフィードバックループが含まれます。
Claude Codeの特徴は、その徹底的なローカリゼーション戦略にあります。クラウドベースのコンテナ環境(OpenAIのアプローチ)にエージェントを展開するのではなく、直接ユーザーのパソコン上で動作させるのです。このローカル実行モデルは、AIをユーザーのプライベートファイル、アプリケーション、開発環境、コンテキスト知識と深く統合します—これらの情報をリモートサーバに送信するのは非常に困難だからです。
2025年の6つのAI革命:Andrej Karpathyによる業界最大の変革ガイド
2025年を通じて、人工知能の風景は地殻変動を伴う変化を経験し、機械学習、ソフトウェア開発、人間とコンピュータの相互作用に対する考え方を根本から再形成しました。著名なAI研究者兼技術者のAndrej Karpathyは、この分野を根底から変えた6つの主要な進化的変化を特定しました。これらは単なる漸進的な改善ではなく、既存の仮定に挑戦し、まったく新しい可能性を切り開くブレークスルーの瞬間です。
検証可能な報酬学習の出現:人間のフィードバックを超えて
長年、大規模言語モデルの生産トレーニングスタックは予測可能な3段階のプロセスに従っていました:事前学習(2020年のGPT-2やGPT-3のように)、教師あり微調整(2022年のInstructGPT)、そして人間のフィードバックによる強化学習(RLHF、同じく2022年)。このアプローチは安定性と成熟性を証明し、業界の標準的な方法として支配的でした。
2025年までに、根本的な変化が起きました。検証可能な報酬に基づく強化学習(RLVR)が、主要なAI研究所によって採用されるコア技術となったのです。この違いは非常に重要です:モデルの出力を評価するために人間の判断に頼るのではなく、RLVRは自動的に検証可能な環境—数学的問題解決、プログラミング課題など、正解が客観的に判断できる領域—を利用します。
この方法で訓練されたモデルは、人間が「推論戦略」と認識するものを自然に発展させます。複雑な問題を中間的な計算ステップに分解し、反復的な洗練を通じて複数の解決策経路を発見します。OpenAIのo1モデル(2024年後半リリース)はこの能力の最初の兆候を示し、その後のo3(2025年初)ではこのアプローチの劇的な可能性を証明しました。DeepSeek-R1論文は、これらの検証可能な環境がモデルに明示的な推論チェーンを構築させる方法について追加の証拠を提供しています。
RLVRの従来のアプローチと異なる点は、その計算負荷の高さにあります。教師あり微調整やRLHFは比較的短期間で計算コストも控えめですが、検証可能な報酬訓練は、客観的で決定論的な報酬関数に対して長期的な最適化サイクルを必要とします。これにより、もともと事前学習に割り当てられていた計算資源が、この新しい訓練パラダイムに再配分されているのです。革新的な点は、モデルの能力をテスト時の計算コストの関数として調整できることです。より長い推論チェーンを生成し、「思考時間」を増やすことで、スケーリングの新たな次元が生まれています。
AI知能の理解:デジタル生物ではなく幽霊のような存在
2025年、業界は人工知能の実態に対する新たな視点を獲得しました。Andrej Karpathyは、次のような洞察を表明しました:「我々は『デジタル動物を繁殖させている』のではなく、『幽霊を召喚している』のだ」—これは根本的に異なるエンティティであり、その知性は生物学的システムとは全く異なる最適化目的から生まれています。
この区別は非常に重要です。人間の神経ネットワークは、部族の生存シナリオにおいて自然選択を通じて進化しました。一方、大規模言語モデルは、人間のテキストを模倣し、数学的問題で高得点を取り、人間の評価で承認を得ることを最適化しています。これらは全く異なる進化圧の結果であり、そのために現れる知性も根本的に異なる形態をとるのは当然です。
この洞察は、AIの進歩を評価する方法に深い影響を与えます。検証可能な環境を表すベンチマークは、RLVR最適化の影響を受けやすくなっています。AIチームは、これらの特定の能力領域を効率的にカバーするために、ベンチマークの埋め込みに密接に似た訓練環境を構築し始めています。「テストセットでの訓練」が業界の標準となりつつあります。その結果、モデルはあらゆるベンチマークをクリアしながらも、汎用的な人工知能の実現からは遠い状態にあります。
カーソル現象:新たなアプリケーション層の出現
2025年を通じて急速に台頭したカーソルは、AIアプリケーションのアーキテクチャに関して予想外の発見をもたらしました。もともとは専門的なコードエディタとして始まったものが、より広範なパラダイムへと進化し、「Xドメイン向けカーソル」についての議論を巻き起こしています。
カーソルの真のブレークスルーは、新しいLLMアプリケーション層の構築方法を示した点にあります。基本原則は、専門的なアプリケーションが複数のLLM呼び出しを調整し、パフォーマンスと計算コストのバランスを取りながら、より高度な有向非巡回グラフ(DAG)を構築することです。これらのシステムは、「コンテキストエンジニアリング」と呼ばれる作業を行います—各クエリに最も関連性の高い情報を特定し、取得し、優先順位をつけることです。ドメイン固有のグラフィカルインターフェースを提供し、人間を意思決定ループに維持し、タスクの要件に応じてモデルの自律性を調整できる仕組みも備えています。
Andrej Karpathyは、この層構造について、将来的には大規模言語モデルプラットフォームが「ジェネラリストの大学院レベルの能力」へと進化し、専門的なアプリケーションがそれらのジェネラリストを「エキスパートチーム」へと変貌させると示唆しています。これには、プライベートデータ、環境センサー、アクチュエータ、特定の垂直市場向けの継続的なフィードバックループが含まれます。
Claude Code:あなたのコンピュータ上で動作するインテリジェントエージェント
AnthropicのClaude Codeは、AIエージェントが人間の環境内でどのように動作するかにおいて、画期的な瞬間をもたらしました。ツールの使用と推論が反復的にサイクルし、複雑で持続的な問題解決を可能にすることを実証したのです。
Claude Codeの特徴は、その徹底的なローカリゼーション戦略にあります。クラウドベースのコンテナ環境(OpenAIのアプローチ)にエージェントを展開するのではなく、直接ユーザーのパソコン上で動作させるのです。このローカル実行モデルは、AIをユーザーのプライベートファイル、アプリケーション、開発環境、コンテキスト知識と深く統合します—これらの情報をリモートサーバに送信するのは非常に困難だからです。
能力の不均一な発展を特徴とする移行期において、この設計選択は真の戦略的思考を示しています。開発者の作業環境に直接エージェントを展開することは、分散型クラウドクラスターを構築するよりも論理的な進展です。Claude Codeは、この洞察をエレガントで力強いインターフェースに凝縮し、AIを意図的に訪れる必要のあるウェブサイトから、ユーザーのデジタルワークスペースに埋め込まれた小さな知的存在へと変貌させました。
Vibe Coding:コードなしのプログラミング
2025年半ばまでに、AIは重要な能力閾値を突破しました。それは、プログラマーが基盤となる実装を理解する必要なく、自然言語の記述だけで高度なアプリケーションを構築できる能力です。この概念は瞬く間に広まり、Andrej Karpathyが一時的に「Vibe Coding」という用語をソーシャルメディアに投稿したことが、業界全体のムーブメントへと発展しました。
Vibe Codingは、プログラミングの根本的な民主化をもたらします。誰もが自然言語で望む内容を記述し、動作するコードを受け取れるようになるのです。Andrej Karpathyは、自身がRustでカスタムBPEトークナイザを迅速に開発した経験を記録し、深い言語知識を必要とせずに済んだと述べています—従来のプログラミング要求がそのまま残っていたら、「決して書かれなかった」コードです。
この変化はアクセシビリティを超えた意味も持ちます。プロの開発者は、新たな自由を得て、探索的なプロトタイプを作成したり、最小限のコストでアーキテクチャのアイデアを試したり、特定の調査のための使い捨てアプリケーションを書いたりできるようになります。コードは儚く、使い捨てのものとなり、ユーザーとクリエイターの境界は曖昧になります。ソフトウェア開発は、一般の人々とプロの開発者がともに意味のある貢献を行える領域へと変貌し、キャリアの定義や技術スキルの期待も再構築されつつあります。
Nano Bananaとその先:AIに必要なビジュアルインターフェース
GoogleのGemini Nanoや類似の進展は、Andrej Karpathyの評価によれば、2025年の最も変革的な変化の一つです。より広い視点:大規模言語モデルは、1970年代や1980年代のデスクトップやマイクロコンピュータ時代に続く次のコンピューティングパラダイムを表しています。
この類推が正しければ、同様の革新が類似の技術的基盤から生まれることが期待されます。パーソナルコンピューティングのグラフィカルユーザーインターフェース革命は、コマンドラインのテキスト操作が不可能だったからではなく、視覚的表現が人間の認知的嗜好により近かったからです。
テキストは計算上原始的ですが、人間の入力や情報消費のパターンには適していません。人間は空間的・グラフィカルな情報を視覚的に処理する方がはるかに効率的であり、文章を解析するよりも画像や図表、スライド、ホワイトボード、マルチメディアを通じて情報を受け取ることを自然に好みます。
現行のLLMインターフェースは対話形式—基本的にはコマンドラインのテキスト操作に過ぎません。誰がAIのためのグラフィカル層を構築するのか、その答えはまだ完全には出ていませんが、Nano Bananaのような製品がその答えを示唆しています。Nano Bananaの特徴は単なる画像生成能力だけでなく、テキスト生成、ビジュアル作成、世界知識の統合的な合成をモデルの重み構造に織り込んでいる点にあります。
これら6つの変化—検証可能な報酬最適化からビジュアルインターフェースへ、人間依存のフィードバックからAIエージェントのローカル運用へ、専門知識からアクセスしやすいプログラミングへ—は、業界が根本的に変革していることを示しています。2020年代初頭のAI開発を導いた枠組みは、まったく新しいアプローチへと置き換わり、わずか数か月前には不可能に思えた可能性を次々と開いています。Andrej Karpathyの観察が示すように、2025年は漸進的な進歩ではなく、人工知能が根本から自己再構築した瞬間として記憶されるでしょう。