ヤフーは、ビッグデータ分析領域の最先端技術として、高次元データの高速検索技術「NGT(Neighborhood Graph and Tree for Indexing)」を開発し、オープンソースソフトウェア(以下、OSS)として公開を開始した。さらに、同技術に関係する特許の実施権を無償で提供する。
NGTは、テキストや画像、商品・ユーザーデータなど、複数の特徴を持つデータ(高次元データ)を、大量のデータベースの中から、高速に検索・特定できる技術。AI(人工知能)やIoTの台頭により、ますます巨大化の一途をたどるビッグデータの分析の高速化を実現する。
本技術は、言語データや画像特徴データ、いずれにおいても、技術の最先端である学術領域における既存の類似技術の中でも、主流の技術と比べて、12倍以上も高速に検索できることが確認されている。(※)特に、言語データにおける最新研究結果は、AIにおける重要領域の1つである“自然言語処理”分野において、最高峰と言われる国際会議「ACL 2016 (54th Annual Meeting of the Association for Computational Linguistics)」(2016年8月開催)でも、論文として採択され、その有用性が高く評価された。
※【言語データ研究のエビデンス】 検索精度(適合率)90%として、200万件の言語データを対象に検索を行った場合、既存の類似技術の中で最も高速な技術「SASH」の検索時間が、およそ2.4ミリ秒かかるのに対して、「NGT」は最速でおよそ0.6ミリ秒と約4.0倍の高速性を実現。なお、既存の類似技術の中でも主流の技術「FLANN」と比べると、約12.3倍(およそ7.4ミリ秒)も高速であることも証明された。詳細は、以下論文を参照。 Kohei Sugawara, Hayato Kobayashi, and Masajiro Iwasaki, "On Approximately Searching for Similar Word Embeddings", In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016), pages 2265-2275. Association for Computational Linguistics, 2016.