悪意のあるAI、思ったより簡単に作れてしまう?

TOKYO, JP | 2025年11月26日

iStock-1266665699 (1)

Anthropicによると、攻撃者は想定よりも容易にAIモデルの学習データを汚染できることが示されています。

学習データが汚染されると、モデルは悪意のある出力を生成し、後続の攻撃につながるおそれがあります。たとえば、攻撃者はAIにフィッシングサイトへのリンクの生成や生成されたコードにバックドアを埋め込むように仕向けることが可能です。

リサーチャーは次のように述べています。「今回の研究は、AnthropicのAlignment Scienceチーム、UK AISI(AI Safety Institute)Safeguards、The Alan Turing Instituteの共同研究であり、これまでで最大規模のデータポイズニング調査です。」

「実験では、低リスクの挙動を誘発する単純なバックドアで検証しました。その結果、モデル規模や学習データ量に関係なく、データポイズニングを実施するために必要なドキュメント数はほぼ一定だということがわかりました。具体的には、学習データに悪意のあるドキュメントを250件注入するだけで600Mから13BパラメータのLLMにバックドアを埋め込むことができます。これは、『モデルが大きいほど比例して多くの汚染データが要る』という従来の前提に疑問を投げかける結果です。」

この結果は、AIポイズニングの容易さとスケーラビリティに対する大きな懸念を提起します。

リサーチャーは次のように説明しています。「攻撃者が必要とするドキュメント数が学習データに対する割合ではなく、固定的で少数でよければ、ポイズニング攻撃の実現性は従来考えられていたよりも高いと言えます。数百万件のドキュメントを用意するのに比べれば、250件はわずかな手間で済みます。」

利用者は、生成AIツールから得られる出力を盲信すべきではありません。検索エンジンの結果と同じように注意を払い、内容の真偽や偽装の有無を確かめる必要があります。

KnowBe4のセキュリティ意識向上トレーニングは、従業員のセキュリティ意識を高め、日々求められるセキュリティ上の判断に従業員一人ひとりが的確な意志決定を下すことを可能にします。世界の7万社を超える企業や団体がKnowBe4を採用して、防御の最終ラインとして「人」による防御壁を構築して、セキュリティ文化の形成につなげています。

詳細については、Anthropicの記事を参照してください。

Topics: フィッシング, KnowBe4 SATブログ, セキュリティ文化

Get the latest insights, trends and security news. Subscribe to CyberheistNews.