Fabricantes de grandes modelos competem para superar a capacidade de textos longos
Os grandes modelos estão a melhorar a sua capacidade de processar textos longos a uma velocidade impressionante. Atualmente, várias empresas de tecnologia de grandes modelos e instituições de pesquisa de topo, tanto a nível nacional como internacional, estão a focar-se na expansão do comprimento do contexto como uma prioridade de atualização.
De 4000 tokens a 400 mil tokens, o comprimento de processamento de texto de grandes modelos alcançou um crescimento de cem vezes em um curto espaço de tempo. A OpenAI, após várias atualizações, aumentou o comprimento do contexto de entrada do GPT-4 para 32 mil tokens. A Anthropic expandiu de uma vez o comprimento do contexto de seu modelo Claude para 100 mil tokens. O Kimi Chat, lançado pela empresa nacional Lua da Escuridão, suporta até 400 mil tokens, equivalentes a 200 mil caracteres chineses.
A melhoria na capacidade de processar textos longos não significa apenas que o modelo pode ler textos mais extensos, mas também impulsionará a aplicação de grandes modelos em áreas profissionais como finanças, direito e pesquisa científica. Por exemplo, as habilidades de resumo, compreensão de leitura e perguntas e respostas de documentos longos serão significativamente aprimoradas.
No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que não há uma relação causal direta entre o comprimento do contexto suportado pelo modelo e a sua eficácia. Mais importante é como o modelo utiliza efetivamente o conteúdo do contexto.
Atualmente, a tecnologia de longos textos enfrenta o dilema do "triângulo impossível" entre comprimento do texto, atenção e poder computacional. À medida que o comprimento do texto aumenta, torna-se difícil para o modelo focar nas informações chave; ao mesmo tempo, manter uma atenção adequada requer um grande consumo de poder computacional.
Para superar esse impasse, os pesquisadores propuseram várias soluções:
Utilizar ferramentas externas para ajudar a processar textos longos, como dividir textos longos em vários textos curtos.
Otimizar o método de cálculo do mecanismo de autoatenção, como a tecnologia LongLoRA.
Otimizar o próprio modelo, como o LongLLaMA que realiza a extrapolação de sequências mais longas através de ajuste fino.
Apesar de a tecnologia de textos longos ainda enfrentar desafios, é sem dúvida a chave para impulsionar a aplicação prática de grandes modelos. No futuro, os fornecedores de grandes modelos precisarão encontrar o melhor equilíbrio entre o comprimento do texto, a atenção e o poder de computação para alcançar um avanço na capacidade de processamento de textos longos.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
14 gostos
Recompensa
14
5
Republicar
Partilhar
Comentar
0/400
GateUser-00be86fc
· 13h atrás
Esta palavra parece dar dor de cabeça.
Ver originalResponder0
SchroedingerAirdrop
· 13h atrás
Tem um martelo ou é mais saboroso negociar criptomoedas?
Ver originalResponder0
ApeShotFirst
· 14h atrás
Não se estiquem, por favor.
Ver originalResponder0
LiquidityNinja
· 14h atrás
Puxe-o! Texto longo é tão saboroso quanto um bolo frito.
A capacidade de processamento de longos textos de grandes modelos subiu cem vezes, coexistindo desafios e oportunidades.
Fabricantes de grandes modelos competem para superar a capacidade de textos longos
Os grandes modelos estão a melhorar a sua capacidade de processar textos longos a uma velocidade impressionante. Atualmente, várias empresas de tecnologia de grandes modelos e instituições de pesquisa de topo, tanto a nível nacional como internacional, estão a focar-se na expansão do comprimento do contexto como uma prioridade de atualização.
De 4000 tokens a 400 mil tokens, o comprimento de processamento de texto de grandes modelos alcançou um crescimento de cem vezes em um curto espaço de tempo. A OpenAI, após várias atualizações, aumentou o comprimento do contexto de entrada do GPT-4 para 32 mil tokens. A Anthropic expandiu de uma vez o comprimento do contexto de seu modelo Claude para 100 mil tokens. O Kimi Chat, lançado pela empresa nacional Lua da Escuridão, suporta até 400 mil tokens, equivalentes a 200 mil caracteres chineses.
A melhoria na capacidade de processar textos longos não significa apenas que o modelo pode ler textos mais extensos, mas também impulsionará a aplicação de grandes modelos em áreas profissionais como finanças, direito e pesquisa científica. Por exemplo, as habilidades de resumo, compreensão de leitura e perguntas e respostas de documentos longos serão significativamente aprimoradas.
No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que não há uma relação causal direta entre o comprimento do contexto suportado pelo modelo e a sua eficácia. Mais importante é como o modelo utiliza efetivamente o conteúdo do contexto.
Atualmente, a tecnologia de longos textos enfrenta o dilema do "triângulo impossível" entre comprimento do texto, atenção e poder computacional. À medida que o comprimento do texto aumenta, torna-se difícil para o modelo focar nas informações chave; ao mesmo tempo, manter uma atenção adequada requer um grande consumo de poder computacional.
Para superar esse impasse, os pesquisadores propuseram várias soluções:
Utilizar ferramentas externas para ajudar a processar textos longos, como dividir textos longos em vários textos curtos.
Otimizar o método de cálculo do mecanismo de autoatenção, como a tecnologia LongLoRA.
Otimizar o próprio modelo, como o LongLLaMA que realiza a extrapolação de sequências mais longas através de ajuste fino.
Apesar de a tecnologia de textos longos ainda enfrentar desafios, é sem dúvida a chave para impulsionar a aplicação prática de grandes modelos. No futuro, os fornecedores de grandes modelos precisarão encontrar o melhor equilíbrio entre o comprimento do texto, a atenção e o poder de computação para alcançar um avanço na capacidade de processamento de textos longos.