ZOZOテクノロジーズの研究開発組織「ZOZO研究所」は、同所研究員が研究において使用している大規模データセット「Shift15M」および実装基盤をオープンソースとして公開したことを発表。
「Shift15M」とは、ファッションアプリ「IQON」に投稿されたコーディネートを基に構成された大規模データセット。IQONのサービス提供期間である2010年から2020年までに投稿されたコーディネート約255万件のほか、これらのコーディネートを構成する約1,500万件のアイテムに関する特徴量、アイテムカテゴリに関するデータやコーディネート投稿への「いいね」数などの関連データも含む。
データセットの詳細
- アイテムの特徴量
- コーディネートに含まれるアイテムの情報
-
アイテムやコーディネートの付加情報
3.1) 投稿日時
3.2) 「いいね」の数
3.3) ジャンル・カテゴリ
3.4) 統計情報
3.5) 人間が付与したラベル(学習のための教師信号など)
併せて公開する実装基盤では、コーディネートデータの年ごとに異なる傾向を認識し、その変化によって生じるデータ分布のシフトを再現実験で確認することが可能。これにより、年々変化するファッションの流行をより正確にとらえ、研究の更なる発展に役立てることができる。また、回帰問題、分類問題、集合マッチングなど、データ分布のシフトが生じる条件のもとでさまざまなタスクを検証するためのコードが整備されている。
データセット公開の背景
ZOZO研究所では、「ファッションを数値化する」をミッションとして掲げ、ZOZOグループが保有する豊富なデータ資産を基に研究開発に取り組んでいる。その中のひとつとして、ファッションの流行が変化しても、継続的に認識精度を高く保つことができるAI技術の実現を目的に研究を進めている。
ファッションに関連するデータは、流行の変化による影響を受け、分布シフトと呼ばれる数理的現象が生じると考えられている。分布シフトは流行や時間等の変化に伴って入力データの分布が変化することで生じ、ファッションに限らず多くの分野に共通して現れる現象とされている。この分布シフトによって、AIの認識精度が低下することで近年注目を集めている。
分布シフトの検証は、AI技術の実用性にかかわる重要なテーマである一方で、検証に用いる実用的なデータセットの不足により、学術界における当該分野の研究の進展はこれまで制限されてきた。そこで、分布シフト研究の発展を支える新たな研究基盤として、ZOZO研究所が保有する実データで構成された大規模データセッ「Shift15M」と実装基盤を公開することを決定。
本データセットと実装基盤はファッションに限らず幅広い分野での活用が可能。分布シフトの再現実験と典型的なタスクにおける効果検証や比較検証など、目的に合わせて使用できる。 なお、本データセットを使用した研究結果をまとめた研究論文である「SHIFT15M: Multiobjective Large-Scale Fashion Dataset with Distributional Shifts」はarXivにて公開している。