ルームクリップと博報堂DYメディアパートナーズの研究開発プロジェクト「AaaS Tech Lab」は、OpenAIやMetaなどが開発・公開している複数のAIモデルを組み合わせ、写真や動画に写っている物体とその座標を検出する画像解析システムを開発した。
同システムは、大規模言語モデル(LLM)と、画像を物体ごとにセグメンテーションするAIモデルを組み合わせることで、従来の同様のシステムに比べて、検出したい物体をより柔軟に指定できるようになっている。また、写真内の座標や具体的な商品などの付加情報を合わせて取得できる仕組みも実現したという。

同システムは、まずルームクリップが提供する住生活領域のソーシャルプラットフォーム「RoomClip」に実装。投稿されたユーザーの住まいの写真に写っているインテリアアイテムを抽出して、アイテムを取り扱うECサイトのリンクを自動で表示する機能を2024年4月に公開している。今後、同システムを活用してRoomClipのサービス利便性を向上させるとともに、住生活領域の商品を容易に導入できるサービスの構築を進めていくとのこと。また、同システムの他企業への応用も支援していく予定としている。
システムの概要と開発について
同システムは、2023年6月からルームクリップのエンジニアチームと博報堂DYメディアパートナーズによる共同開発を開始。検出したい物体を言語によって柔軟に指定できること、検出した物体の構造データを取得可能にすることを目指したという。
従来の同様の座標を取得できる画像解析システムでは、検出したい物体について同様の物体の画像をあらかじめAIに大量に読み込ませて学習させる必要があった。一方で、言語によって検出したい物体を指定するシステム(LLM)では、写っているかどうかの判定は可能なものの、画像内のどこに写っているのかの座標情報は取得できなかった。
同システムは、Metaが開発した画像をセグメンテーションするAIモデル「Segment Anything Model(SAM)」と、OpenAIが開発したLLMによる画像を言語化するモデル「CLIP」を組み合わせることで、その両立を実現。RoomClipでの実装においては、同システムとGoogleが提供する「Vision API Product Search」を組み合わせ、画像のアイテムの座標に対して、ECサイトの商品リンクを表示するようにした。
これにより、RoomClip内に蓄積された大量の住まいの実例写真から、インテリアアイテムを取り扱うECサイトへのシームレスな移動を実現できたという。
同システムを利用したRoomClipの機能について
RoomClipでは、同システムを活用した新機能を2024年から段階的に開始している。同機能では、ユーザーがRoomClipに投稿した写真を自動で画像解析してアイテムを特定し、取り扱いのあるECサイトのURLリンクをカード形式で表示する。
部屋写真の画像のなかで、画像解析で商品が特定されたものには、白と黒の丸が表示される仕様となっており、部屋写真の右側には商品の写真と参考価格が表示される。クリックすると、取り扱いサイトへと遷移する。
