A capacidade de processamento de longos textos de grandes modelos subiu cem vezes, coexistindo desafios e oportunidades.

Fabricantes de grandes modelos competem para superar a capacidade de textos longos

Os grandes modelos estão a melhorar a sua capacidade de processar textos longos a uma velocidade impressionante. Atualmente, várias empresas de tecnologia de grandes modelos e instituições de pesquisa de topo, tanto a nível nacional como internacional, estão a focar-se na expansão do comprimento do contexto como uma prioridade de atualização.

De 4000 tokens a 400 mil tokens, o comprimento de processamento de texto de grandes modelos alcançou um crescimento de cem vezes em um curto espaço de tempo. A OpenAI, após várias atualizações, aumentou o comprimento do contexto de entrada do GPT-4 para 32 mil tokens. A Anthropic expandiu de uma vez o comprimento do contexto de seu modelo Claude para 100 mil tokens. O Kimi Chat, lançado pela empresa nacional Lua da Escuridão, suporta até 400 mil tokens, equivalentes a 200 mil caracteres chineses.

A melhoria na capacidade de processar textos longos não significa apenas que o modelo pode ler textos mais extensos, mas também impulsionará a aplicação de grandes modelos em áreas profissionais como finanças, direito e pesquisa científica. Por exemplo, as habilidades de resumo, compreensão de leitura e perguntas e respostas de documentos longos serão significativamente aprimoradas.

No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que não há uma relação causal direta entre o comprimento do contexto suportado pelo modelo e a sua eficácia. Mais importante é como o modelo utiliza efetivamente o conteúdo do contexto.

Atualmente, a tecnologia de longos textos enfrenta o dilema do "triângulo impossível" entre comprimento do texto, atenção e poder computacional. À medida que o comprimento do texto aumenta, torna-se difícil para o modelo focar nas informações chave; ao mesmo tempo, manter uma atenção adequada requer um grande consumo de poder computacional.

Para superar esse impasse, os pesquisadores propuseram várias soluções:

  1. Utilizar ferramentas externas para ajudar a processar textos longos, como dividir textos longos em vários textos curtos.

  2. Otimizar o método de cálculo do mecanismo de autoatenção, como a tecnologia LongLoRA.

  3. Otimizar o próprio modelo, como o LongLLaMA que realiza a extrapolação de sequências mais longas através de ajuste fino.

Apesar de a tecnologia de textos longos ainda enfrentar desafios, é sem dúvida a chave para impulsionar a aplicação prática de grandes modelos. No futuro, os fornecedores de grandes modelos precisarão encontrar o melhor equilíbrio entre o comprimento do texto, a atenção e o poder de computação para alcançar um avanço na capacidade de processamento de textos longos.

TOKEN3.53%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 5
  • Republicar
  • Partilhar
Comentar
0/400
GateUser-00be86fcvip
· 13h atrás
Esta palavra parece dar dor de cabeça.
Ver originalResponder0
SchroedingerAirdropvip
· 13h atrás
Tem um martelo ou é mais saboroso negociar criptomoedas?
Ver originalResponder0
ApeShotFirstvip
· 14h atrás
Não se estiquem, por favor.
Ver originalResponder0
LiquidityNinjavip
· 14h atrás
Puxe-o! Texto longo é tão saboroso quanto um bolo frito.
Ver originalResponder0
SleepyValidatorvip
· 14h atrás
É só isso, não é?
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)