Googleは2024年2月15日(米国時間)、次世代AIモデル「Gemini 1.5」を発表。「Google AI Studio」と機械学習プラットフォーム「Vertex AI」で、中規模モデル「Gemini 1.5 Pro」の限定版を提供開始した。
2023年12月に、高性能AI「Gemini」を公開した同社。2024年2月8日には、大規模モデル「Gemini 1.0 Ultra」を発表している。アップデートされたGemini 1.5は、中規模モデルのGemini 1.5 Proでも、Gemini 1.0 Ultraと同等の性能を持つ。
Gemini 1.5は、扱える情報量が大幅に増加。最大100万トークンの継続的な処理が可能となっている。1時間の動画、11時間の音声、3万行以上のコード、70万字以上のコードベースなどを一度に処理できるとのこと。なお、長文の文脈理解に関する試験運用機能も導入されている。
そのほか、Gemini 1.5 Proの具体的な機能は次の通り。
膨大な情報に基づく推論
特定のプロンプト内にある大量のコンテンツを、シームレスに分析・分類・要約可能となった。たとえば、アポロ11号の月面着陸に関する402ページの記録を基に、文書内の会話や出来事、画像などを推論できる。
複数のモダリティの理解と推論の向上
動画など、様々なモダリティをより深く理解し、推論のタスクが実行可能となった。たとえば、映画から多様なプロットや出来事を正確に分析し、劇中の細かい点まで推論できる。
パフォーマンスの向上
Googleは、特定の事実・発言を含む短いテキストを、長いテキストブロック内に意図的に配置したテストを実施。その結果、Gemini 1.5 Proは99%の確率で、最大100万トークンの長さのデータブロック内にある、埋め込みテキストを検出した。
また、同社は初めて得る情報からどの程度の学習が可能か評価するテストも実施。話者が200人未満のカラマン語の文法マニュアルをGemini 1.5 Proへ与えたところ、同じ内容の学習者と同程度のレベルで、英語からカラマン語への翻訳を学習できた。