Велика мовна модель «Shusheng Puyu» 2.0 від SenseTime має відкритий вихідний код: 200 тисяч контексту, 300 000 китайських ієрогліфів можуть бути прочитані одночасно

2024-01-18 07:11:06

Bit Pakistan – SenseTime та Shanghai AI Lab спільно з Китайським університетом Гонконгу та Університетом Фудань сьогодні випустили нове покоління великої мовної моделі Scholar Puyu 2.0 (InternLM2).

Згідно з повідомленнями, InternLM2 навчається на корпусі з 2,6 трильйона токенів. Слідом за сеттингом першого покоління вчених і Puyu (InternLM), InternLM2 включає в себе дві специфікації параметрів 7B і 20B, а також базову і діалогову версії, які продовжують залишатися відкритим вихідним кодом і надають вільні комерційні ліцензії. В даний час технологія очищення та фільтрації даних, що лежить в основі Puyu, пройшла три раунди ітеративних оновлень, і вона стверджує, що може досягти продуктивності навчальних токенів 1T з даними другого покоління, використовуючи лише близько 60% навчальних даних.

Згідно з повідомленнями, завдяки розширенню розміру навчального вікна та покращенню кодування позицій, InternLM2 підтримує контекст 200 000 токенів і здатний приймати та обробляти вхідний вміст близько 300 000 китайських ієрогліфів (близько п’ятисот або шестисот сторінок документів) одночасно. InternLM2 близький до загальної продуктивності ChatGPT у масштабі середини 20B.

TOKEN-3.02%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.