博報堂テクノロジーズは、日本語に特化した画像とテキストの理解を深めるための視覚言語事前学習モデルを開発。非商用利用に限りHugging Face上で無償公開した旨を発表した。同モデルは、画像検索、テキストからの画像生成、画像のタグ付け、画像に対する質問応答など、多岐にわたる応用が可能となっている。
研究・開発の背景と貢献
多くの視覚言語事前学習(Vision-Language Pre-training; VLP)技術は、英語中心の開発により、日本語データへの対応が不十分だった。博報堂テクノロジーズは、画像エンコーダの改良と訓練データ量の増加、言語エンコーダの能力強化を通じ、日本語特化VLPモデルを開発。同モデルにより、たとえば「桜の花が満開の公園」などの具体的なシーンを日本語で検索した際、関連度の高い画像を正確に見つけ出すことが可能となる。
今回のモデル公開により、博報堂テクノロジーズは、研究コミュニティやAI技術の開発者に対し、より高度な日本語の視覚言語理解の基盤を提供。今後も継続的な技術革新を通じて、研究コミュニティへの貢献を強化していく予定だという。