Большая языковая модель «Shusheng Puyu» 2.0 от SenseTime имеет открытый исходный код: 200 КБ контекста, 300 000 китайских иероглифов могут быть прочитаны одновременно

2024-01-18 07:11:06

Компания SenseTime и Shanghai AI Lab совместно с Китайским университетом Гонконга и Фуданьским университетом сегодня выпустили новое поколение большой языковой модели Scholar Puyu 2.0 (InternLM2).

По имеющимся данным, InternLM2 обучается на корпусе в 2,6 триллиона токенов. Вслед за первым поколением ученых и Puyu (InternLM), InternLM2 включает в себя две спецификации параметров 7B и 20B, а также базовую и диалоговую версии, которые по-прежнему имеют открытый исходный код и предоставляют свободные коммерческие лицензии. В настоящее время технология очистки и фильтрации данных, лежащая в основе Puyu, претерпела три раунда итеративных обновлений, и она утверждает, что может достичь производительности обучения токенов 1T с данными второго поколения, используя только около 60% обучающих данных.

Согласно отчетам, благодаря увеличению размера окна обучения и улучшениям кодирования позиций, InternLM2 поддерживает контекст 200 000 токенов и способен принимать и обрабатывать входное содержимое около 300 000 китайских иероглифов (около пятисот или шестисот страниц документов) за один раз. InternLM2 близок к общей производительности ChatGPT в масштабе 20 миллиардов.

TOKEN-3.02%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .