広場
最新
注目
ニュース
プロフィール
ポスト
Gateアプリをダウンロードするにはスキャンしてください
その他のダウンロードオプション
今日はこれ以上表示しない
CoinProphet_ETH
2025-09-09 06:47:37
フォロー
研究によると、LLMにおけるオンラインとオフラインRLのパフォーマンスのギャップが存在します—特にスケールで—しかし、オフラインアルゴリズムにオンポリシーサンプルを組み込むことで(反復的/セミオンラインRL)のギャップを埋めることができ、トレーニングデータの質がRLメソッドの選択を上回ることがよくあります。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
9 いいね
報酬
9
6
リポスト
共有
コメント
0/400
コメント
GhostAddressMiner
· 12時間前
データ品質偽装オンチェーン信号は既に追跡されています
原文表示
返信
0
WagmiOrRekt
· 12時間前
トレーニングデータの質が鍵ですね
原文表示
返信
0
ContractFreelancer
· 12時間前
オフライントレーニングは少し物足りないです
原文表示
返信
0
MEVSupportGroup
· 12時間前
オフライントレーニングもオンチェーンでのトレーニングも同じようなものだ。
原文表示
返信
0
OnchainDetectiveBing
· 12時間前
オフラインで動くゴミhhh
原文表示
返信
0
StakeOrRegret
· 13時間前
ここに薄いヴェールが純粋にオフラインです
原文表示
返信
0
トピック
#
Gate Square Mid Autumn Creator Incentive
22204 人気度
#
My Top AI Coin
12666 人気度
#
Altcoin Market Rebound
27673 人気度
#
Gate Alpha New Listings
33607 人気度
#
Fed Rate Cut Expectations
11613 人気度
ピン
サイトマップ
研究によると、LLMにおけるオンラインとオフラインRLのパフォーマンスのギャップが存在します—特にスケールで—しかし、オフラインアルゴリズムにオンポリシーサンプルを組み込むことで(反復的/セミオンラインRL)のギャップを埋めることができ、トレーニングデータの質がRLメソッドの選択を上回ることがよくあります。