O modelo de linguagem grande "Shusheng Puyu" 2.0 da SenseTime é de código aberto: contexto de 200K, 300.000 caracteres chineses podem ser lidos de cada vez

2024-01-18 07:11:06

Bit Pakistan – SenseTime e Shanghai AI Lab, juntamente com a Universidade Chinesa de Hong Kong e a Universidade Fudan, lançaram hoje uma nova geração do modelo de linguagem grande Scholar Puyu 2.0 (InternLM2).

De acordo com relatórios, o InternLM2 é treinado em um corpus de 2,6 trilhões de tokens. Seguindo a configuração da primeira geração de estudiosos e Puyu (InternLM), InternLM2 inclui duas especificações de parâmetros de 7B e 20B, bem como as versões base e diálogo, que continuam a ser de código aberto e fornecer licenças comerciais gratuitas. Atualmente, a tecnologia de limpeza e filtragem de dados por trás do Puyu passou por três rodadas de atualizações iterativas, e afirma ser capaz de alcançar o desempenho de tokens 1T de treinamento com dados de segunda geração usando apenas cerca de 60% dos dados de treinamento.

De acordo com relatórios, através da expansão do tamanho da janela de treinamento e melhorias de codificação de posição, o InternLM2 suporta o contexto de 200.000 tokens, e é capaz de aceitar e processar o conteúdo de entrada de cerca de 300.000 caracteres chineses (cerca de quinhentas ou seiscentas páginas de documentos) ao mesmo tempo. O InternLM2 está próximo do desempenho geral do ChatGPT em uma escala média de 20B.

TOKEN-3.02%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

0/400

Nenhum comentário

WendyCS

Tópicos em destaqueVer mais
#GateVenturesAcquiresPerpDEXADEN
3.9K Popularidade
#ETHOn-ChainActivityRises
17.5K Popularidade
#BitcoinMarketAnalysis
59.9K Popularidade
#ERC-8004IgnitesMachineEconomy
8.6K Popularidade
#SquareCreatorCertificationOpens
21.9K Popularidade

Gate Fun tendênciaVer mais
1GMGMEME
LM:$1.3MTitulares:5288
2芝麻开门芝麻开门
LM:$606.9KTitulares:137
3GCATGCAT
LM:$463.3KTitulares:10606
4GDOGGdog
LM:$403.5KTitulares:22769
5GINGGing
LM:$44KTitulares:135

Fixar