الشركات المصنعة للنماذج الكبيرة تتنافس على تجاوز القدرة على معالجة النصوص الطويلة
تقوم النماذج الكبيرة بتحسين قدرتها على معالجة النصوص الطويلة بسرعة مذهلة. حاليًا، هناك العديد من الشركات والمؤسسات البحثية الرائدة في مجال النماذج الكبيرة في الداخل والخارج التي تركز على توسيع طول السياق كأحد أولويات الترقية.
من 4000 توكن إلى 400000 توكن، حقق طول معالجة النصوص في النماذج الكبيرة زيادة بمئة ضعف في فترة زمنية قصيرة. قامت OpenAI بترقية عدة مرات، مما رفع طول إدخال السياق في GPT-4 إلى 32000 توكن. قامت Anthropic بتوسيع طول السياق في نموذجها Claude إلى 100000 توكن. أما Kimi Chat الذي أطلقته شركة "الوجه المظلم من القمر" المحلية، فيدعم إدخال ما يعادل 400000 توكن من 200000 حرف صيني.
إن تحسين قدرة معالجة النصوص الطويلة لا يعني فقط أن النموذج يمكنه قراءة نصوص أطول، بل سيعزز أيضًا تطبيق النماذج الكبيرة في مجالات التخصص مثل المالية والقانون والبحث العلمي. على سبيل المثال، ستتحسن بشكل ملحوظ قدرات تلخيص الوثائق الطويلة، وفهم القراءة، والإجابة على الأسئلة.
ومع ذلك، ليس طول النص هو ما يجعل الأمور أفضل. أظهرت الأبحاث أن طول السياق الذي يدعمه النموذج لا يوجد علاقة سببية مباشرة مع أدائه. والأهم من ذلك هو كيفية استخدام النموذج لمحتوى السياق بشكل فعال.
حاليًا، تواجه تقنية النصوص الطويلة مأزق "مثلث المستحيل" فيما يتعلق بطول النص، والانتباه، والقدرة الحاسوبية. مع زيادة طول النص، يصبح من الصعب على النموذج التركيز على المعلومات الرئيسية؛ بينما يتطلب الحفاظ على الانتباه الكافي استهلاك كمية كبيرة من القدرة الحاسوبية.
لتجاوز هذه الأزمة، اقترح الباحثون مجموعة من الحلول:
استخدم أدوات خارجية للمساعدة في معالجة النصوص الطويلة، مثل تقسيم النص الطويل إلى نصوص قصيرة متعددة.
تحسين طريقة حساب آلية الانتباه الذاتي، مثل تقنية LongLoRA.
تحسين النموذج نفسه، مثل LongLLaMA الذي يحقق الاستدلال على تسلسلات أطول من خلال الضبط الدقيق.
على الرغم من أن تقنية النصوص الطويلة لا تزال تواجه تحديات، إلا أنها بلا شك تمثل المفتاح لدفع النماذج الكبيرة نحو تطبيقات أكثر تقدمًا. في المستقبل، يحتاج مصنعو النماذج الكبيرة إلى البحث عن أفضل نقطة توازن بين طول النص والانتباه والقدرة الحاسوبية، لتحقيق اختراق في قدرة معالجة النصوص الطويلة.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
قدرة معالجة النصوص الطويلة للنماذج الكبيرة ارتفع مئة مرة، والتحديات والفرص تتواجد جنبًا إلى جنب.
الشركات المصنعة للنماذج الكبيرة تتنافس على تجاوز القدرة على معالجة النصوص الطويلة
تقوم النماذج الكبيرة بتحسين قدرتها على معالجة النصوص الطويلة بسرعة مذهلة. حاليًا، هناك العديد من الشركات والمؤسسات البحثية الرائدة في مجال النماذج الكبيرة في الداخل والخارج التي تركز على توسيع طول السياق كأحد أولويات الترقية.
من 4000 توكن إلى 400000 توكن، حقق طول معالجة النصوص في النماذج الكبيرة زيادة بمئة ضعف في فترة زمنية قصيرة. قامت OpenAI بترقية عدة مرات، مما رفع طول إدخال السياق في GPT-4 إلى 32000 توكن. قامت Anthropic بتوسيع طول السياق في نموذجها Claude إلى 100000 توكن. أما Kimi Chat الذي أطلقته شركة "الوجه المظلم من القمر" المحلية، فيدعم إدخال ما يعادل 400000 توكن من 200000 حرف صيني.
إن تحسين قدرة معالجة النصوص الطويلة لا يعني فقط أن النموذج يمكنه قراءة نصوص أطول، بل سيعزز أيضًا تطبيق النماذج الكبيرة في مجالات التخصص مثل المالية والقانون والبحث العلمي. على سبيل المثال، ستتحسن بشكل ملحوظ قدرات تلخيص الوثائق الطويلة، وفهم القراءة، والإجابة على الأسئلة.
ومع ذلك، ليس طول النص هو ما يجعل الأمور أفضل. أظهرت الأبحاث أن طول السياق الذي يدعمه النموذج لا يوجد علاقة سببية مباشرة مع أدائه. والأهم من ذلك هو كيفية استخدام النموذج لمحتوى السياق بشكل فعال.
حاليًا، تواجه تقنية النصوص الطويلة مأزق "مثلث المستحيل" فيما يتعلق بطول النص، والانتباه، والقدرة الحاسوبية. مع زيادة طول النص، يصبح من الصعب على النموذج التركيز على المعلومات الرئيسية؛ بينما يتطلب الحفاظ على الانتباه الكافي استهلاك كمية كبيرة من القدرة الحاسوبية.
لتجاوز هذه الأزمة، اقترح الباحثون مجموعة من الحلول:
استخدم أدوات خارجية للمساعدة في معالجة النصوص الطويلة، مثل تقسيم النص الطويل إلى نصوص قصيرة متعددة.
تحسين طريقة حساب آلية الانتباه الذاتي، مثل تقنية LongLoRA.
تحسين النموذج نفسه، مثل LongLLaMA الذي يحقق الاستدلال على تسلسلات أطول من خلال الضبط الدقيق.
على الرغم من أن تقنية النصوص الطويلة لا تزال تواجه تحديات، إلا أنها بلا شك تمثل المفتاح لدفع النماذج الكبيرة نحو تطبيقات أكثر تقدمًا. في المستقبل، يحتاج مصنعو النماذج الكبيرة إلى البحث عن أفضل نقطة توازن بين طول النص والانتباه والقدرة الحاسوبية، لتحقيق اختراق في قدرة معالجة النصوص الطويلة.