A capacidade de processamento de longos textos de grandes modelos subiu cem vezes, coexistindo desafios e oportunidades.

2025-08-12 04:02:25

Fabricantes de grandes modelos competem para superar a capacidade de textos longos

Os grandes modelos estão a melhorar a sua capacidade de processar textos longos a uma velocidade impressionante. Atualmente, várias empresas de tecnologia de grandes modelos e instituições de pesquisa de topo, tanto a nível nacional como internacional, estão a focar-se na expansão do comprimento do contexto como uma prioridade de atualização.

De 4000 tokens a 400 mil tokens, o comprimento de processamento de texto de grandes modelos alcançou um crescimento de cem vezes em um curto espaço de tempo. A OpenAI, após várias atualizações, aumentou o comprimento do contexto de entrada do GPT-4 para 32 mil tokens. A Anthropic expandiu de uma vez o comprimento do contexto de seu modelo Claude para 100 mil tokens. O Kimi Chat, lançado pela empresa nacional Lua da Escuridão, suporta até 400 mil tokens, equivalentes a 200 mil caracteres chineses.

A melhoria na capacidade de processar textos longos não significa apenas que o modelo pode ler textos mais extensos, mas também impulsionará a aplicação de grandes modelos em áreas profissionais como finanças, direito e pesquisa científica. Por exemplo, as habilidades de resumo, compreensão de leitura e perguntas e respostas de documentos longos serão significativamente aprimoradas.

No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que não há uma relação causal direta entre o comprimento do contexto suportado pelo modelo e a sua eficácia. Mais importante é como o modelo utiliza efetivamente o conteúdo do contexto.

Atualmente, a tecnologia de longos textos enfrenta o dilema do "triângulo impossível" entre comprimento do texto, atenção e poder computacional. À medida que o comprimento do texto aumenta, torna-se difícil para o modelo focar nas informações chave; ao mesmo tempo, manter uma atenção adequada requer um grande consumo de poder computacional.

Para superar esse impasse, os pesquisadores propuseram várias soluções:

Utilizar ferramentas externas para ajudar a processar textos longos, como dividir textos longos em vários textos curtos.
Otimizar o método de cálculo do mecanismo de autoatenção, como a tecnologia LongLoRA.
Otimizar o próprio modelo, como o LongLLaMA que realiza a extrapolação de sequências mais longas através de ajuste fino.

Apesar de a tecnologia de textos longos ainda enfrentar desafios, é sem dúvida a chave para impulsionar a aplicação prática de grandes modelos. No futuro, os fornecedores de grandes modelos precisarão encontrar o melhor equilíbrio entre o comprimento do texto, a atenção e o poder de computação para alcançar um avanço na capacidade de processamento de textos longos.

TOKEN3.53%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

14 gostos

Recompensa
14
5
Republicar
Partilhar

Comentar

0/400

GateUser-00be86fc

· 13h atrás

Esta palavra parece dar dor de cabeça.

Ver originalResponder0

SchroedingerAirdrop

· 13h atrás

Tem um martelo ou é mais saboroso negociar criptomoedas?

Ver originalResponder0

ApeShotFirst

· 14h atrás

Não se estiquem, por favor.

Ver originalResponder0

LiquidityNinja

· 14h atrás

Puxe-o! Texto longo é tão saboroso quanto um bolo frito.

Ver originalResponder0

SleepyValidator

· 14h atrás

É só isso, não é?

Ver originalResponder0

Tópico
#TOKEN OF LOVE IS BACK
19k Popularidade
#BTC Market Cap Tops Amazon
11k Popularidade
#Show My Alpha Points
98k Popularidade
#BTC Back To $120k
26k Popularidade
#Stablecoin Supply Tops $270B
4k Popularidade

Pino