O modelo de linguagem grande "Shusheng Puyu" 2.0 da SenseTime é de código aberto: contexto de 200K, 300.000 caracteres chineses podem ser lidos de cada vez
Bit Pakistan – SenseTime e Shanghai AI Lab, juntamente com a Universidade Chinesa de Hong Kong e a Universidade Fudan, lançaram hoje uma nova geração do modelo de linguagem grande Scholar Puyu 2.0 (InternLM2).
De acordo com relatórios, o InternLM2 é treinado em um corpus de 2,6 trilhões de tokens. Seguindo a configuração da primeira geração de estudiosos e Puyu (InternLM), InternLM2 inclui duas especificações de parâmetros de 7B e 20B, bem como as versões base e diálogo, que continuam a ser de código aberto e fornecer licenças comerciais gratuitas. Atualmente, a tecnologia de limpeza e filtragem de dados por trás do Puyu passou por três rodadas de atualizações iterativas, e afirma ser capaz de alcançar o desempenho de tokens 1T de treinamento com dados de segunda geração usando apenas cerca de 60% dos dados de treinamento.
De acordo com relatórios, através da expansão do tamanho da janela de treinamento e melhorias de codificação de posição, o InternLM2 suporta o contexto de 200.000 tokens, e é capaz de aceitar e processar o conteúdo de entrada de cerca de 300.000 caracteres chineses (cerca de quinhentas ou seiscentas páginas de documentos) ao mesmo tempo. O InternLM2 está próximo do desempenho geral do ChatGPT em uma escala média de 20B.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
O modelo de linguagem grande "Shusheng Puyu" 2.0 da SenseTime é de código aberto: contexto de 200K, 300.000 caracteres chineses podem ser lidos de cada vez
Bit Pakistan – SenseTime e Shanghai AI Lab, juntamente com a Universidade Chinesa de Hong Kong e a Universidade Fudan, lançaram hoje uma nova geração do modelo de linguagem grande Scholar Puyu 2.0 (InternLM2).
De acordo com relatórios, o InternLM2 é treinado em um corpus de 2,6 trilhões de tokens. Seguindo a configuração da primeira geração de estudiosos e Puyu (InternLM), InternLM2 inclui duas especificações de parâmetros de 7B e 20B, bem como as versões base e diálogo, que continuam a ser de código aberto e fornecer licenças comerciais gratuitas. Atualmente, a tecnologia de limpeza e filtragem de dados por trás do Puyu passou por três rodadas de atualizações iterativas, e afirma ser capaz de alcançar o desempenho de tokens 1T de treinamento com dados de segunda geração usando apenas cerca de 60% dos dados de treinamento.
De acordo com relatórios, através da expansão do tamanho da janela de treinamento e melhorias de codificação de posição, o InternLM2 suporta o contexto de 200.000 tokens, e é capaz de aceitar e processar o conteúdo de entrada de cerca de 300.000 caracteres chineses (cerca de quinhentas ou seiscentas páginas de documentos) ao mesmo tempo. O InternLM2 está próximo do desempenho geral do ChatGPT em uma escala média de 20B.