Techub Newsによると、TetherはQVAC Fabric上でのクロスプラットフォームなBitNet LoRA微調整フレームワークを発表し、Microsoft BitNet(1ビットLLM)の訓練と推論の最適化を実現しました。このフレームワークは計算能力とメモリの要求を大幅に削減し、100億パラメータ級のモデルをノートパソコン、コンシューマーGPU、スマートフォン上で訓練および微調整できるようにします。このソリューションは、初めてBitNetモデルのモバイルGPU(Adreno、Mali、Apple Bionicを含む)での微調整を実現し、テスト結果では125Mパラメータのモデルは約10分で微調整が完了し、1Bモデルは約1時間で完了、さらにはスマートフォン上で13Bパラメータのモデルに拡張可能です。さらに、このフレームワークはIntel、AMD、Apple Siliconなどの異種ハードウェアをサポートし、非NVIDIAデバイス上での1ビットLLM LoRA微調整も初めて実現しました。性能面では、モバイルGPU上のBitNetモデルはCPUに比べて推論速度が2倍から11倍向上し、従来の16ビットモデルと比べて最大約77.8%のメモリ使用量削減を達成しています。Tetherは、この技術が高性能な計算資源やクラウドインフラへの依存を打破し、AI訓練の分散化とローカル化を促進し、フェデレーテッドラーニングなどの新しい応用シナリオの基盤となることを期待しています。
TetherがクロスプラットフォームのBitNet LoRAフレームワークを発表、10億パラメータのモデルを消費者向けデバイスで微調整可能に
Techub Newsによると、TetherはQVAC Fabric上でのクロスプラットフォームなBitNet LoRA微調整フレームワークを発表し、Microsoft BitNet(1ビットLLM)の訓練と推論の最適化を実現しました。このフレームワークは計算能力とメモリの要求を大幅に削減し、100億パラメータ級のモデルをノートパソコン、コンシューマーGPU、スマートフォン上で訓練および微調整できるようにします。このソリューションは、初めてBitNetモデルのモバイルGPU(Adreno、Mali、Apple Bionicを含む)での微調整を実現し、テスト結果では125Mパラメータのモデルは約10分で微調整が完了し、1Bモデルは約1時間で完了、さらにはスマートフォン上で13Bパラメータのモデルに拡張可能です。さらに、このフレームワークはIntel、AMD、Apple Siliconなどの異種ハードウェアをサポートし、非NVIDIAデバイス上での1ビットLLM LoRA微調整も初めて実現しました。性能面では、モバイルGPU上のBitNetモデルはCPUに比べて推論速度が2倍から11倍向上し、従来の16ビットモデルと比べて最大約77.8%のメモリ使用量削減を達成しています。Tetherは、この技術が高性能な計算資源やクラウドインフラへの依存を打破し、AI訓練の分散化とローカル化を促進し、フェデレーテッドラーニングなどの新しい応用シナリオの基盤となることを期待しています。