企業においてデータ利活用によるAIや機械学習に新たな価値が生まれると期待されている一方で、個人等のプライバシー保護と対立する場面があります。 特に、企業の個人情報に対する規制は強化されており、プライバシー保護の懸念からデータの利活用が進まないこともあります。 この課題を解決するための技術が、プライバシー保護技術 (PETs; Privacy-Enhancing Technologies) です。
プライバシー保護技術には以下のようなものがあります。
- 差分プライバシー (Differential Privacy)
- 統合分析 (Federated Analysis)
- 準同型暗号 (Homomorphic Encryption)
- 秘密分散 (Secure Multiparty Computation)
- ゼロ知識証明 (Zero Knowledge Proof)
さらに、PETs の中でもより強力な HPTs (Hard Privacy Technologies) があります。 これは、プライバシー保護にあたり、単一のパーティのみを信頼しないことを前提としたセキュリティ技術の総称です。 例えば、Tor (Onion Routing) などの技術が挙げられます。
差分プライバシー
差分プライバシーとは、データ分析を行う前に、分析には影響を与えないように工夫して与えられたノイズを分析対象のデータに加えることで、プライバシーを保護したままデータを分析する技術です。 例えば、アンケートの回答を収集するときに、ノイズを加えることで、それぞれの答えからセンシティブ情報が推定される可能性を下げることができます。 差分プライバシーは、データ分析の際に、収集したデータに一定の確率分布に従ったノイズを加えます。そのため、ノイズが大きくなれば、分析結果から個々の情報を特定することが困難になりますが、一方で結果の信頼性も低下してしまいます。
統合分析
統合分析とは、複数のデータベースやデバイスに分散しているデータを、一箇所にまとめることなく個々で分析し、分析結果のみを共有することでプライバシーを保護する技術です。 例えば、統合分析の事例として、機械学習と組み合わせる Federated Leaning という技術があります。 それぞれの端末で機械学習を行い、学習の差分だけを中央のサーバにフィードバックした後、それを元に中央のモデルをアップデートし、各端末に再配信することで、データが複数のデバイスに分散している場合でも機械学習ができるようになります。 この手法は、スマートフォンのキーボードの予測モデルをトレーニングするときにも利用されています。
準同型暗号
準同型暗号とは、データを暗号化したまま計算が可能な暗号のことです。 準同型暗号を利用することで、分析対象のデータを復号せずにデータ分析を行えます。 そのため、分析処理を外部のクラウドサービスなどの委託するときに情報漏洩のリスクを減らすことができます。
秘密分散
秘密分散とは、データを断片化して乱数を加えて、一定数以上の断片が揃わないと複合できない状態で演算を行うことにより、特定の計算を安全に行う技術のことです。 秘密鍵を断片化したデータを複数人で管理し、一定人数が集まらないと秘密鍵を復元できないような仕組みを実現するときなどに利用されています。
ゼロ知識証明
ゼロ知識証明は、ある人が他の人に特定の事柄(命題)を証明したい時に、証明したいこと以外の何の知識も伝えることなく、その事柄を証明する手法のことです。 ゼロ知識証明の概念についてですが、例えば、証明者は〇〇大学の卒業生であることを証明したいとします。 その場合、検証者は〇〇大学に関するYESかNOで答えられる質問を20個出題します。 何も知らない人でも1/2の確率で正解することができますが、〇〇大学について詳しくないと20問連続で正解できないような難易度にすることで、これらの質問と回答を通して証明者は、〇〇大学に関する知識以外の何の知識も伝えることなく、検証者に〇〇大学の卒業生であることを証明できます。
実際には、質問を20回もするのは時間の無駄で効率が悪いので、1.5往復のやりとりで証明することができる、離散対数問題の困難性を利用したシュノアプロトコルなどがあります。