Kemampuan pemrosesan teks panjang model besar meningkat seratus kali lipat, tantangan dan peluang berjalan beriringan

Perusahaan model besar saling bersaing untuk meningkatkan kemampuan teks panjang

Model besar sedang meningkatkan kemampuan mereka untuk memproses teks panjang dengan kecepatan yang luar biasa. Saat ini, sudah ada banyak perusahaan teknologi model besar terkemuka dan lembaga penelitian di dalam dan luar negeri yang menjadikan perpanjangan panjang konteks sebagai fokus peningkatan.

Dari 4000 token menjadi 400.000 token, panjang pemrosesan teks model besar telah mengalami peningkatan seratus kali lipat dalam waktu singkat. OpenAI setelah beberapa kali pembaruan, meningkatkan panjang input konteks GPT-4 menjadi 32.000 token. Anthropic secara signifikan memperluas panjang konteks model Claude menjadi 100.000 token. Kimi Chat yang dirilis oleh Bulan Gelap di dalam negeri bahkan mendukung input yang setara dengan 400.000 token atau 200.000 karakter Cina.

Peningkatan kemampuan pemrosesan teks panjang tidak hanya berarti model dapat membaca teks yang lebih panjang, tetapi juga akan mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian. Misalnya, kemampuan untuk merangkum dokumen panjang, pemahaman bacaan, dan tanya jawab akan meningkat secara signifikan.

Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa tidak ada hubungan sebab-akibat langsung antara panjang konteks yang didukung model dan kinerjanya. Yang lebih penting adalah bagaimana model dapat memanfaatkan konten konteks secara efektif.

Saat ini, teknologi teks panjang menghadapi dilema "segitiga tak mungkin" antara panjang teks, perhatian, dan daya komputasi. Seiring bertambahnya panjang teks, model sulit untuk fokus pada informasi kunci; sementara mempertahankan perhatian yang cukup memerlukan konsumsi daya komputasi yang besar.

Untuk mengatasi situasi ini, para peneliti telah mengusulkan berbagai solusi:

  1. Menggunakan alat eksternal untuk membantu memproses teks panjang, seperti membagi teks panjang menjadi beberapa teks pendek.

  2. Mengoptimalkan cara perhitungan mekanisme perhatian diri, seperti teknologi LongLoRA.

  3. Mengoptimalkan model itu sendiri, seperti LongLLaMA yang mencapai ekstrapolasi urutan yang lebih panjang melalui fine-tuning.

Meskipun teknologi teks panjang masih menghadapi tantangan, itu tanpa diragukan lagi adalah kunci untuk mendorong penerapan lebih lanjut dari model besar. Di masa depan, penyedia model besar perlu menemukan titik keseimbangan terbaik antara panjang teks, perhatian, dan daya komputasi, untuk mencapai terobosan dalam kemampuan pemrosesan teks panjang.

TOKEN2.65%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 6
  • Posting ulang
  • Bagikan
Komentar
0/400
Ser_Liquidatedvip
· 2jam yang lalu
Rugi sepuluh kali lipat dalam satu hari dengan leverage
Lihat AsliBalas0
GateUser-00be86fcvip
· 08-12 04:26
Kata ini membuat kepala pusing.
Lihat AsliBalas0
SchroedingerAirdropvip
· 08-12 04:26
Ada gunanya juga, tetapi Perdagangan Mata Uang Kripto lebih menarik.
Lihat AsliBalas0
ApeShotFirstvip
· 08-12 04:14
Jangan berputar lagi, tolong ya.
Lihat AsliBalas0
LiquidityNinjavip
· 08-12 04:07
Ayo! Teks panjangnya wangi seperti kue telur goreng.
Lihat AsliBalas0
SleepyValidatorvip
· 08-12 04:05
Jadi begitulah.
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)