# 大規模モデルのベンダーが長文能力の突破を競う大規模モデルは驚異的な速度で長文処理能力を向上させています。現在、国内外の多くのトップ大規模モデル技術会社や研究機関がコンテキストの長さの拡張をアップグレードの重点としています。4000トークンから40万トークンへ、大規模モデルのテキスト処理長が短期間で百倍の成長を遂げました。OpenAIは何度もアップグレードを重ね、GPT-4のコンテキスト入力長を3.2万トークンに引き上げました。Anthropicは一気にモデルClaudeのコンテキスト長を10万トークンに拡張しました。国内の月の暗面が発表したKimi Chatは、40万トークンに相当する20万漢字の入力をサポートしています。長文処理能力の向上は、モデルがより長いテキストを読むことができるだけでなく、金融、法律、研究などの専門分野における大規模モデルの応用を促進することを意味します。例えば、長文書の要約、読解、質問応答などの能力が著しく強化されるでしょう。しかし、テキストの長さは長ければ長いほど良いわけではありません。研究によると、モデルがサポートするコンテキストの長さとその効果との間には直接的な因果関係は存在しません。より重要なのは、モデルがどのようにコンテキストの内容を効果的に利用するかです。現在、長文技術はテキストの長さ、注意力、計算力の「不可能な三角形」というジレンマに直面しています。テキストの長さが増すにつれて、モデルは重要な情報に焦点を合わせることが難しくなります。一方、十分な注意を保つためには大量の計算力が必要です。この困難を突破するために、研究者たちはさまざまな解決策を提案しました:1. 外部ツールを利用して長文を処理する、例えば長文を複数の短文に分割する。2. LongLoRAテクノロジーなどのセルフアテンションメカニズムの計算方法を最適化します。3. モデル自体の最適化、例えばLongLLaMAは微調整を通じてより長いシーケンスの外挿を実現します。長文技術は依然として課題に直面していますが、間違いなく大規模モデルのさらなる実用化を推進する鍵です。今後、大規模モデルのメーカーは、テキストの長さ、注意力、計算能力の間で最適なバランスを見つけ、長文処理能力のブレークスルーを実現する必要があります。
大規模モデルの長いテキスト処理能力は100倍に増加し、課題と機会が共存しています
大規模モデルのベンダーが長文能力の突破を競う
大規模モデルは驚異的な速度で長文処理能力を向上させています。現在、国内外の多くのトップ大規模モデル技術会社や研究機関がコンテキストの長さの拡張をアップグレードの重点としています。
4000トークンから40万トークンへ、大規模モデルのテキスト処理長が短期間で百倍の成長を遂げました。OpenAIは何度もアップグレードを重ね、GPT-4のコンテキスト入力長を3.2万トークンに引き上げました。Anthropicは一気にモデルClaudeのコンテキスト長を10万トークンに拡張しました。国内の月の暗面が発表したKimi Chatは、40万トークンに相当する20万漢字の入力をサポートしています。
長文処理能力の向上は、モデルがより長いテキストを読むことができるだけでなく、金融、法律、研究などの専門分野における大規模モデルの応用を促進することを意味します。例えば、長文書の要約、読解、質問応答などの能力が著しく強化されるでしょう。
しかし、テキストの長さは長ければ長いほど良いわけではありません。研究によると、モデルがサポートするコンテキストの長さとその効果との間には直接的な因果関係は存在しません。より重要なのは、モデルがどのようにコンテキストの内容を効果的に利用するかです。
現在、長文技術はテキストの長さ、注意力、計算力の「不可能な三角形」というジレンマに直面しています。テキストの長さが増すにつれて、モデルは重要な情報に焦点を合わせることが難しくなります。一方、十分な注意を保つためには大量の計算力が必要です。
この困難を突破するために、研究者たちはさまざまな解決策を提案しました:
外部ツールを利用して長文を処理する、例えば長文を複数の短文に分割する。
LongLoRAテクノロジーなどのセルフアテンションメカニズムの計算方法を最適化します。
モデル自体の最適化、例えばLongLLaMAは微調整を通じてより長いシーケンスの外挿を実現します。
長文技術は依然として課題に直面していますが、間違いなく大規模モデルのさらなる実用化を推進する鍵です。今後、大規模モデルのメーカーは、テキストの長さ、注意力、計算能力の間で最適なバランスを見つけ、長文処理能力のブレークスルーを実現する必要があります。