最新の研究でわかったこと。匿名データは実は簡単に暴けちゃう

  • 9,550

  • author elanie Ehrenkranz : Gizmodo US
  • [原文]
  • Kaori Myatt
最新の研究でわかったこと。匿名データは実は簡単に暴けちゃう
Photo: Getty Images

現代社会に生きるとは、すなわち大切な情報を企業に渡しながら生きること?

多くの企業では身元を特定できるデータの安全性やプライバシーをできる限りで保証してはいるものの、それでも匿名化された情報をサードパーティーに渡したりしています。その目的が調査であっても、利益を得ることが目的であったとしても、情報を漏らしていることには変わりありません。

最新の研究によれば、たとえデータから身元を特定できる要素を取り払っていたとしても、そのデータから個人を割り当てることは、さほど難しいことではないということが分かってきました。匿名化している対象が誰なのか、わかっちゃうというんですから...。言い換えれば、「匿名化データ」もぶっちゃけ"匿名"ではない...ということでしょうか。

匿名化データはもはや匿名じゃない?

インペリアル・カレッジ・ロンドンの学者が最近発表した論文では、現在の技術を駆使すればデータセットの匿名化は決して十分ではないと指摘しています。企業はデータセットを共有するとき、名前やメールアドレスといった個人を特定できる要素を排除してはいますが、機械学習技術を使うと、いとも簡単に個人を特定できるのだとか。

論文では、機械学習モデルを使い、年齢、性別、婚姻状態など最大15件の個人が特定できる特性をもつデータセットを匿名化して用いることにより、そのうちの99.98パーセントのアメリカ人の身元をつきとめることができた、としています。 この実験では1100万人以上の情報を元にした米国政府を含む5つの情報源から集めた210のデータセットが使われているそうです。特に「開示されたデータが不完全であった場合にも再識別(身元特定)の試行がうまくいくかどうかの可能性を定量化する統計モデル」を提案・検証することができたと論文で結論づけています。

この論文では、保険会社が匿名化した1000人分のデータセットを公開すると仮定しています。このデータセットのうち1パーセントにはカリフォルニア州の顧客が含まれていると仮定。また、データセットには個人の生年月日、性別、郵便番号、乳がんの診断歴が含まれていました。雇用主は、このデータに含まれている個人が、男性であること、この郵便番号の場所に住んでいること、同じ生年月日であること、ステージIVの乳がんで治療がうまくいっていないこと、を見ることができます。

しかし開示した保険会社は、特定のデータがその従業員の記録とぴったり一致していたとしても、そのような記録を持ち得る人は他に数千といる人たちのいずれでもありえると反論することができます。また当てはまったとしてもその人がその保険会社を利用しているかどうかは、さらにまた別問題です。

「30代であり、男性であり、ニューヨークシティに住んでいる人たちの中で、同時に1月5日生まれでもあり、赤のスポーツカーを所有し、さらに2人の娘がいて犬を一匹飼っている人の数は非常に限られています」とルーヴァン・カトリック大学のルーク・ロシェル博士。

シニアオーサーであるインペリアル・カレッジ・ロンドンのデータサイエンス研究所(Data Science Institute)に所属するイヴ・アレキサンドル・ド・モンジョワ博士は、「このような属性は企業が普通に求めるような情報」であり、つまり手に入りやすいとしています。

プライバシーの侵害も身近に

この論文で展開されている仮説や研究はあながち遠い国のお話ではないかもしれないのです。今年6月、シカゴ大学メディカルセンターの患者は大学とGoogleの両方を訴える集団訴訟を起こしています。訴えではシカゴ大が患者のデータを患者の同意を得ずにGoogleと共有したとしています。メディカルセンターは個人情報が識別されないようにデータの匿名化してはいるものの、Googleに患者の身長、体重、バイタルサイン、かかっている疾患の情報、行なっている治療、投与された医薬品、日付の記録を渡したとされています。

訴えによれば、患者の同意なく詳細な情報を共有したことはプライバシーの侵害に当たるだけでなく、データがたとえある方法で匿名化されていたとしても、パワフルなテック企業にかかればそんなデータのリバースエンジニアリングくらいお手のもので、患者の身元はすぐに割れてしまう、と指摘しています。

「企業や政府は、販売されているデータはかならず"不完全"であるからという理由で、身元が特定される危険をこれまで軽視してきました」とモンジョワ博士。「この論文ではこのような言い訳がもはやまかり通らなくなってきたことを示しており、悪用しようと思えば、探している人の情報がその記録に含まれているかどうかなんて、簡単に正確に突き止めることができるのです」と言っています。

匿名化技術は標準を厳しく

博士たちはデータ共有が巨大なプライバシーの侵害につながらないように、匿名化技術の標準をさらに厳しくすべきと警鐘を鳴らします。

世界でももっともパワフルでもっとも搾取的な企業が、匿名化をあばくことができるようなデータを手にしているなんて。テック企業であれ悪意をもった第三者であれ、パズルをつなぎあわせるように、与えられたデータの断片をひろって個人を特定できるなんて危険すぎます

「匿名化の目的は社会が有益にそのデータを使えるようにするものです」とモンジョワ博士。「これは非常に重要であると同時に、人々のプライバシーを犠牲にしてまでデータを共有すべきではないのです」

倫理的な匿名化データの定義について、しっかりと考え直すときが来ているのではないでしょうか。

    あわせて読みたい

    powered by