カスタマーサポートDXを推進するカラクリ株式会社は、日本語に特化した生成AIのガードレール「KARAKURI Guardrails」のβ版の提供を開始した。なお、生成AIのガードレールとは、生成AIアプリケーションにおけるユーザーとのインタラクションを監視・制御するための安全管理システムのことを指す。
KARAKURI Guardrailsの概要・特徴
KARAKURI Guardrailsは、既存のテック各社が提供するガードレール機能(有害コンテンツ検出、プライバシー保護、コンプライアンスチェックなど)に加えて、日本語独自の表現や慣習に合わせた検知・制御を実現する。また、企業固有の要件やポリシーに合わせたカスタマイズが可能となっている。
主な機能
ハルシネーションリスクの検知
AIが事実と異なる情報や根拠のない内容を生成するリスクを検出する。信頼性の高い情報源と照合し、不確実な情報や矛盾する内容を特定することで、誤った情報の拡散を防ぐ。
文脈逸脱の検知
会話やクエリの文脈を理解し、設定された主題や目的から逸脱した応答を識別する。これにより、ユーザーの意図に沿った適切な情報提供を維持し、効率的なコミュニケーションを支援する。
攻撃的行為の検知
悪意のある入力や潜在的な攻撃パターンを識別する。不適切な言葉遣い、システムの脆弱性を突こうとする試み、または悪意のあるコード実行の可能性がある入力を検出し、システムとユーザーの安全を確保する。
個人情報の検知
氏名、住所、電話番号、クレジットカード情報などの機密データを検出し、必要に応じてマスキングまたは削除することで、プライバシー保護とデータセキュリティを強化する。
禁止ワード、禁止トピックの検出
組織のポリシーや法的基準にもとづく禁止用語・トピックを検出する。コンプライアンス対応と適切なコンテンツ管理をサポートする。