Bit Pakistan – SenseTime dan Shanghai AI Lab, bersama dengan Chinese University of Hong Kong dan Fudan University, hari ini merilis generasi baru model bahasa besar Scholar Puyu 2.0 (InternLM2).
Menurut laporan, InternLM2 dilatih pada korpus 2,6 triliun token. Mengikuti pengaturan generasi pertama sarjana dan Puyu (InternLM), InternLM2 mencakup dua spesifikasi parameter 7B dan 20B, serta versi dasar dan dialog, yang terus menjadi open source dan memberikan lisensi komersial gratis. Saat ini, teknologi pembersihan dan penyaringan data di belakang Puyu telah mengalami tiga putaran peningkatan berulang, dan mengklaim dapat mencapai kinerja pelatihan token 1T dengan data generasi kedua hanya menggunakan sekitar 60% dari data pelatihan.
Menurut laporan, melalui perluasan ukuran jendela pelatihan dan peningkatan pengkodean posisi, InternLM2 mendukung konteks 200.000 token, dan mampu menerima dan memproses konten input sekitar 300.000 karakter Cina (sekitar lima atau enam ratus halaman dokumen) sekaligus. InternLM2 mendekati kinerja keseluruhan ChatGPT pada skala pertengahan 20B.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Model bahasa besar "Shusheng Puyu" 2.0 SenseTime adalah open source: konteks 200K, 300.000 karakter Cina dapat dibaca sekaligus
Bit Pakistan – SenseTime dan Shanghai AI Lab, bersama dengan Chinese University of Hong Kong dan Fudan University, hari ini merilis generasi baru model bahasa besar Scholar Puyu 2.0 (InternLM2).
Menurut laporan, InternLM2 dilatih pada korpus 2,6 triliun token. Mengikuti pengaturan generasi pertama sarjana dan Puyu (InternLM), InternLM2 mencakup dua spesifikasi parameter 7B dan 20B, serta versi dasar dan dialog, yang terus menjadi open source dan memberikan lisensi komersial gratis. Saat ini, teknologi pembersihan dan penyaringan data di belakang Puyu telah mengalami tiga putaran peningkatan berulang, dan mengklaim dapat mencapai kinerja pelatihan token 1T dengan data generasi kedua hanya menggunakan sekitar 60% dari data pelatihan.
Menurut laporan, melalui perluasan ukuran jendela pelatihan dan peningkatan pengkodean posisi, InternLM2 mendukung konteks 200.000 token, dan mampu menerima dan memproses konten input sekitar 300.000 karakter Cina (sekitar lima atau enam ratus halaman dokumen) sekaligus. InternLM2 mendekati kinerja keseluruhan ChatGPT pada skala pertengahan 20B.