DXにおける共通課題を解決する「AI・機械学習によるデータ活用」とは?
ビッグデータの分析サービスとして知られるDatabricks。もとはカルフォルニア大学バークレー校のAMPLab(Algorithms, Machines and People Lab)から発展し、使いやすく拡張性に優れた機械学習プラットフォームとして提供されているものだ。世界各国に多くのユーザーを擁し、高い顧客満足度やサービスの機能・品質が評価されたことを受け、設立わずか7年めにして、ガートナー社のデータサイエンス&機械学習分野のマジック・クアドラントではリーダー企業に指名されている。
その中核とも言える統合分析エンジンが「Apache Spark」だ。巨大なデータに対して、高速に分散処理を行い、データの可視化・活用に優れたオープンソースのフレームワークであり、世界のユーザー数は50万人、ユーザー企業は5,000社を超える。
同エンジンのオープンソース化は2011年に開始されたが、近年急速に注目を集めるようになった主な理由として、柿崎氏は「企業側の活用ニーズが高まってきたため」と語った。また、「機械学習などで一定成果をあげたユーザーが、次のステップとして進化したプラットフォームを求めていること」や「構造化&非構造化データを分析して、新たな知見を得たいと考えるユーザーの要件に合っていること」、「機械学習やAIで『何かしなくては』というユーザーがプラットフォームとして選定していること」なども理由として考えられると述べた。
たしかに、いまやAIや機械学習などのキーワードが世の中を席巻し、メディアに登場しない日はほぼない。そうした機運もあり、データを自社の活動に活用しようと、分析に積極的に取り組む企業が増えてきた。そして、その背景にはDXへの変革ニーズもあることは明白だ。
柿崎氏は、小売業/消費財メーカー業界におけるDXに対する共通課題を下記に挙げた。Apache SparkとDatabricksを活用することで、これらの課題が解決できると言う。
「ITを活用して働き方改革に取り組もうと言うと、ロボティクスによって人間の作業を代替することにフォーカスされがちだが、データサイエンティストのような知的作業もAIで置き換えられる可能性があります」(柿崎氏)
あらゆるデータと分析ツールを「AIが正しく動くプラットフォーム」に統合
こうした時代の流れの中で、「当社もそろそろAIを使ったDXを」と考える経営層もいるだろう。しかしそんな動きに対し、「誰が」「どうやって」と現場が困惑するケースも少なくない。果たして、AIや機械学習といったテクノロジーを自社の事業や経営に活かすにはどうしたら良いのか。
柿崎氏は、ここで改めてAIの定義をとらえ直すことの重要性について語った。そもそも、AIの定義は明確なものがない。あえて言えば、AIとは「プログラム」であり、したがってAIが正しく動くプラットフォームが必要になる。
「Databricksが提供するのは、まさにこの『AIが正しく動くプラットフォーム』です。AIはすぐに結果が出るものではなく、一定量のデータを与えて学習させ、そのモデルと照らし合わせることで成果を出していく。その一連のライフサイクルを適切に回す環境として、適切な要件を兼ね備えています」(柿崎氏)
データ活用の流れとして、まずはインプットするための構造化・非構造化データを各所から収集・蓄積し、データクレンジングや正規化を行う必要がある。そのデータをAIで学習させ、結果を見ながらデータを加工して分析するのが、一連のライフサイクルだ。そして、最終的にはデータの結果から判断や予兆検知、レコメンドなどのアウトプットが求められる。
こういった取り組みを行う際、多くの人は「AIが何かを変えてくれるのではないか」という淡い期待を抱くかもしれない。しかし、機械学習で解決できる問題は、氷山の一角のようなものだと言う。これを踏まえずに取り組もうとすると、次の4つの課題にぶつかることになる。
「Databricksは、これら4つの課題をすべて解決できる」と柿崎氏は語る。「ユニファイド・データ・アナリティクス・プラットフォーム」では、世にあるビッグデータとビジネスデータを利用するため、AWS(Amazon Web Service)やMicrosoft Azureと連携した「エンタープライズ・クラウド・サービス」を提供。さらに、データを取得して溜める「ユニファイド・データ・サービス」や分析したデータをデータサイエンティストが活用するための「データサイエンスワークスペース」も備えている。後者を利用することで、BIツールの統合もシームレスに行うことが可能だ。
アメリカ・エクスペディア社、ドイツ・ザランド社によるAI・機械学習の事例を紹介
続いて、顧客事例としてアメリカ・エクスペディア社のホテル予約サイト「Hotels.com」での取り組みが紹介された。同社は、41言語で90のウェブサイトを運営、年間売上はグループ全体で12億ドルを記録。取扱ホテル数は32万5,000軒を超え、アプリのダウンロード数は全世界で7,000万以上に上る。
同社は、Databricksを用いてデータ処理量を20倍に増やし、低品質や重複したデータの排除だけでなく、ユーザーが興味のあるコンテンツをパーソナライズして提供することで、CVRを大幅に改善している。
Hotels.comでは、32万以上のホテルがそれぞれ画像を投稿し、ユーザーに向けて魅力訴求を行うが、中には低品質な画像や魅力訴求に乏しいもの、重複した画像なども存在していた。また、表示される画像の順番がユーザー訴求に適していない場合もあり、同社はDatabricks上で画像分析による表示の最適化を行ったと言う。
柿崎氏は、続けて具体的な取組内容を紹介した。まずは画像分析を行い、類似画像や低品質な画像は自動的に排除。プールやジムなど施設に関するものだけをまとめるなどの最適化を行った。また、大量のデータからユーザーのプロファイルを作成し、たとえば「ベッドにこだわりがある」と分析された場合には、ベッドの写真をしっかり見せるなど、ユーザー訴求に最適と思われるものを優先表示させるようにした。さらに、興味を持って検索している宿泊先のロケーションを地図上で把握し、レコメンデーションも実施。結果、同社がコンバージョンの指標としている予約率が飛躍的に高まったと言う。
加えて、もうひとつの事例として、ドイツの大手ファッションEC「Zalando」が紹介された。ザランド社もDatabricksを統合データ分析プラットフォームとして導入し、リアルタイム顧客マーケティングを実現している。
同社は、2008年に創業。ヨーロッパを中心に18ヵ国で展開し、年間売上は4.5億ユーロを記録している。取扱商品は2,000ブランド40万種に上り、サイロ化された組織内で商品・顧客情報が分散、データサイエンティストごとに独自の分析アルゴリズムやツールが使用されているなどの課題を抱えていた。
そこで、同社はDatabricksを用いて社内のデータを収集。セキュアな環境に統合したうえで、データサイエンティストが自由に高速に分析できる環境を構築した。その結果、ユーザーのウェブサイトの行動を把握・分析し、リアルタイムなレコメンデーションを行えるようになった。従来よりパーソナライゼーションは行われていたが、改善により属性分析だけでなく、オンタイムでよりユーザーの気分に寄り添ったレコメンデーションが可能になった。これにより、バスケットサイズ(カート内の商品金額)が40%も向上したと言う。
データ分析はビジネス課題の解決に結びつけてこそ価値がある
2社の事例を踏まえ、柿崎氏は次のように語った。
「Databricksは、小売業のデータ分析にモメンタム(勢い)をもたらします。いくつかの課題を乗り越え、新しいデータ分析のプラットフォームを導入する際、Databricksであれば、あらゆる構造化・非構造化データを集約する受け皿となり、それらを素材として自由に分析に使える環境を提供することができます」(柿崎氏)
なお、Databricksはクラウド上で展開を行っているため、数分でSparkの環境をデプロイすることができる。また、従量課金のため、スピーディかつスモールスタートで導入も可能だ。構造化・非構造化データを含むあらゆるデータソースと、Sparkによる大量のデータを高速かつシームレスに提供し、あらゆるデータ分析ツールと連携することで、データエンジニアやデータサイエンティストの共同作業環境を実現する。
柿崎氏は、「あくまでデータは分析することが目的ではなく、ビジネス課題の解決につなげてこそ価値がある。Databricksでは、小売業だけでなくさまざまな業界で数千もの顧客企業が大量のデータを活用し、自らの成果へと結びつけている。そうした事例を紹介しながら、新しい仕組みを取り入れる支援を引き続き行いたい」と語り、講演を締めくくった。