ECzineニュース

NTT、少量の音声データから学習する個人性再現対話技術を開発　本人のデジタル分身を低コストに生成可能

2024/01/23 06:00

通知

　NTTは、IOWN構想（あらゆる情報を基に個と全体との最適化を図り、光を中心とした革新的技術を活用し、高速大容量通信ならびに膨大な計算リソースなどを提供可能な、端末を含むネットワーク・情報処理基盤の構想）の柱のひとつであるデジタルツインコンピューティング（以下、DTC）において、物理世界の制約を超えた活動や交流を通した機会増大や自己成長の実現を目指し、本人のように行動し、本人と経験を共有する分身のようなAIエージェント「Another Me」の研究開発を進めている。

　今回、NTT版大規模言語モデル「tsuzumi」の拡張技術として、少量の対話データから個人の口調や発話内容の特徴を反映して対話を生成する個人性再現対話技術を開発。また、少量の音声データから個人の声色を反映した音声を合成するZero／Few-shot音声合成技術を開発した。従来、個人の特徴を学習し再現するには個人に関するデータが大量に必要だったのに対し、少量データから再現可能になったことで、多くの人が誰でも容易にデジタル空間内に自身の分身を持つことが可能となる。

　同研究成果の実用化に向けて、自分自身に代わって人とのコミュニケーションやコミュニティ活動などをおこなうデジタル分身の公開実証などを進めていく。

技術の概要

個人性再現対話技術

　優れた文章生成能力を持つLLMは、対話を集めた大量のデータで学習させることで、雑談や議論など人の自然な会話を生成する対話技術にも適用可能。従来の対話技術の研究においては、個人性を再現するために個人の大量のデータでLLMをファインチューニング（大規模なデータですでに学習してあるAIモデルを、別の比較的小規模なデータで学習させて微調整すること）していたが、コストが高くAnother Meで目指す万人のデジタル分身の再現には適用できなかった。

　これに対し、比較的少量のデータによりLLMを効率的に追加学習させる方法として、アダプタ技術（事前学習済みモデルの外部に比較的小規模のモデル〈アダプタ〉を追加することで、事前学習済みモデルのパラメータを固定したまま効率的に追加学習が可能となる技術）がある。これを対話における個人性の再現に適用した場合、ベースとなるLLMが多種多様な人の大量のデータで学習されているため、少量のデータでは十分に学習が進まず、結果として特徴がまったく異なる他人のような発話が生成され、個人の再現度が低下するという課題があった。

　それに対して個人性再現対話技術では、アダプタ技術にペルソナ対話技術（居住地や趣味などその人の大まかなプロフィール情報をパラメータ指定することで、そのようなプロフィールを持った人格〈ペルソナ〉に相応しい発話内容を再現する技術）を組み合わせることで、課題の解決を図っている。

　ペルソナ対話技術によりベースとなるLLMにペルソナ機能を付加することで、LLMの応答が再現したい本人の大まかな個人性を反映するようになり、学習の初期状態がより本人に近づくため、少ないデータでも効率的な学習が可能に。また、生成段階においても、アダプタの学習データに含まれるものとはまったく異なるような対話においても、ペルソナを反映した妥当な応答を返すことで、個人の再現性が高まるという。

　tsuzumiのアダプタ技術を個人性の再現に適用した個人アダプタは、エピソードを交えた発話や口癖など、対象の個人に特化した発話生成が可能。個人アダプタとして個人ごとに追加されるモデルのサイズは非常に小さく、動的に切り替えられるため、多人数の対話の再現を効率的に実現できる。

Zero／Few-shot音声合成技術

　従来技術では、声を作りたい話者・口調ごとに数十分程度の音声データを用意する（収録に要する時間はその数倍）必要があり、万人の音声の再現やキャラクタの多彩な口調を実現するにはコストが高くなる課題があったが、より少ない音声データからでも高品質かつ多様な表現の生成を可能にするふたつの技術を実現した。

ero-shot音声合成技術

　話者のほんの数秒程度の音声から声色の特徴を抽出し、音声合成モデルの学習をすることなくその特徴を再現した音声を生成し、多忙な方や声を失った人など極少量の音声しか得られない人を含む、万人の音声の簡易な再現を目指す。

Few-shot音声合成技術」

　著名人や有名キャラクタ等の声色・口調をより高い再現度で反映させることを目指し、再現したい口調の音声を含む数分～10分程度の音声データから音声合成モデルを学習。従来に比べ、必要な音声データ量を大きく削減しながらも再現性の高い音声を合成可能に。これらの技術を実現するためには多くのパラメータを持つ深層学習モデルを必要とするが、演算処理の高速化により一般的なスペックのCPUで動作させることに成功しており、同技術を用いた音声合成サービスの運用コストを低く抑えることを実現している。

技術の効果

　これらの技術により、自分の代わりに他人とコミュニケーションをするデジタル分身を誰もが持つことができるようになり、その主な適用先としてメタバースのような新たなデジタルコミュニケーションサービスが考えられる。

　サービスを使いこなして物理空間では会えないさまざまな人と交流している先進的なユーザがいる一方、多くの新規ユーザは誰と話せばよいか、何をすればよいか、最初は戸惑うことが多いのも実情となっている。

　それに対して同技術によるデジタル分身は、ユーザ自身がログインしていなくても自律的に活動するNPC（Non-PlayerCharacter）として、ほかのユーザやそのデジタル分身とコミュニケーションし、その内容をユーザ本人に持ち帰って共有。そうすることで、まったく知らない人に話しかける心理的障壁や仕事・家事などの時間的制約に縛られず、興味関心や気心の合うユーザと友達になるきっかけが得られる。

　また、趣味や関心が共通する人々のコミュニティに分身が代理参加してユーザに橋渡しすることで、コミュニティ活動を活性化することが可能。有名人やインフルエンサーのデジタル分身をサービス内に常時配置することで、ファンコミュニティの拡大・活性化も期待される。

　このデジタル分身のプロトタイプは、NTTドコモのメタコミュニケーションサービス「MetaMe」上に実装。2024年1月17日～18日開催のdocomo Open House'24にて展示された。

　ユーザのデジタル分身を通じた人間関係の創出効果に関しては、MetaMe上でのフィールド実験を2023年度中に開始。こうした取り組みを通して、NTT版大規模言語モデルtsuzumiによる個人性再現機能の提供に向け、2024年度中に技術の精度向上を図るとしている。これにより、特定の領域に関する高い専門的な言語能力を有しながら、親しみやすい個性を持ち顧客や社員等との関係性を築けるデジタルヒューマンやチャットボットの実現につなげていく考え。

この記事は参考になりましたか？