富士通、対話型生成AIの幻覚やAIを騙す敵対的攻撃に対処できるAIトラスト技術を開発

富士通株式会社は、対話型生成AIから出力される回答の信頼性を向上する2つのAIトラスト技術である、「幻覚検出技術」と「フィッシングURL検出技術」を開発した。

1つ目の「幻覚検出技術」は、対話型生成AIがデータに基づかないもっともらしい誤りを回答してしまう幻覚（ハルシネーション）を検出する技術で、対話型生成AIの回答文をAIが意味解析し、かつ幻覚が生じやすい固有表現部分を特定して重点的に確認することで、既存手法よりも幻覚を高精度に検出するものだ。

具体的には、回答文を主語、述語、目的語などに分解し、その中の固有表現部分を特定する。そして、そこを空欄にし尋ねる穴埋め質問を自動で作成して、外部の対話型生成AIへ複数回質問することで、固有表現部分の回答のばらつきを、より正確に捉えることで、高精度な幻覚スコアの算出を実現している。

富士通、対話型生成AIの幻覚やAIを騙す敵対的攻撃に対処できるAIトラスト技術を開発 — 「幻覚検出技術」の動作イメージ

なお、同社は「幻覚検出技術」について、WikiBio GPT-3 Hallucination Datasetなどのオープンデータを用いてベンチマークを行い、SelfCheckGPTなどの他のAIの幻覚を検出する手法に対し、検出の正確さの指標（AUC- ROC）を約22%向上できることを確認した。

2つ目の「フィッシングURL検出技術」は、対話型生成AIが、悪意ある情報を覚え込ませる攻撃を受けてフィッシングサイトURLを回答出力してしまう問題に対応できる技術で、対話型生成AIに「フィッシングURL検出技術」を搭載することで、AIを騙す既存の敵対的攻撃を含むフィッシングサイトを検出し、利用者に危険なURLであることを伝える。

また、フィッシングURLを特定するだけでなく、近年問題視されているAIの判断を故意に誤らせる既存の敵対的攻撃にも対応させることができる。

この攻撃対策技術には、同社がBen-Gurion University of the Negev（以下、ベングリオン大学）に設置した「富士通スモールリサーチラボ」で共同開発した技術を活用しており、AIへの攻撃がそれぞれ個別のAIモデルに向けて特化しやすい傾向を利用し、複数の異なる種類のAIモデルで処理することで生じる判定根拠の違いから、攻撃データを見分けている。

同社は、この技術が対話型生成AIに限らず、帳票データを扱うAIに対する全般的な攻撃への対策にも活用が期待できるとしている。

今後、今回開発されたた2つの技術は、「Fujitsu Kozuchi（code name）-Fujitsu AI Platform」の対話型生成AIコアエンジンに搭載され、幻覚検出技術は2023年9月28日、フィッシングURL検出技術は2023年10月より日本国内に法人向けの実証実験環境として提供を開始し、順次グローバルにも展開予定だ。

また、個人の利用者も、富士通のAPIやWebアプリケーションを試せる環境である「Fujitsu Research Portal」上でアカウントを作成すれば、トライアル利用が可能になる。