ZOZO NEXTの研究開発組織「ZOZO研究所」は、論文「An Empirical Analysis of GPT-4V’s Performance on Fashion Aesthetic Evaluation」(邦題: ファッション美的評価における「GPT-4V」のパフォーマンスに関する経験的な分析)が、コンピュータグラフィックスとインタラクティブ技術に関するカンファレンス「SIGGRAPH Asia 2024」のTechnical Communicationsに採択されたと発表した。なお、同研究成果は同所研究員の平川優伎氏によるもの。
論文内容
写真中の人物に似合うファッションコーディネートを予測する技術(以下、ファッション美的評価)におけるGPT-4Vの有効性を検証するため、数百人規模の人間の評価に基づく信頼性の高い検証用データセットを構築したとのこと。検証用データセットは、30代女性3名が多様なコーディネートを着用した多数のスナップ写真から成る。
オンラインレーティングシステム「OpenSkill」を用いたアノテーションツールを開発し、同一人物が異なるコーディネートを着用した2枚のスナップ写真に対して、どちらが似合うか評価することを繰り返し実施。これにより、各スナップ写真の似合う度合いに関する評価値を推定した。
また、GPT-4Vを用いて同様の評価を行い、2枚のスナップ写真のどちらが似合うかを予測するプロンプトテンプレートを設計。2枚のスナップ写真の入力順序を入れ替えた場合に、予測の一貫性が失われる事例については引き分けとみなしている。
同研究では、GPT-4Vと人間の評価の整合性を定量化するために、人間の評価上位K%と下位K%(論文中ではK=10,50を採用)のスナップ写真の分類精度、人間とGPT-4Vのファッション美的評価における順位相関を算出した。実験結果から、GPT-4Vはファッションコーディネートアプリ「WEAR by ZOZO」のいいね数や閲覧数に基づく指標よりも、人間の評価に整合する予測が可能であるとわかった。ただし、コーディネートの色の多様性が低いデータセットに対しては、人間の評価との整合度が低くなる傾向があることも確認されており、さらなる改善の余地も存在する。
ZOZO研究所は今後、より大規模な検証用データセットを用いたGPT-4Vの予測傾向のバイアスの分析や、ファインチューニングの有効性について検証を進めるとしている。