クッキー殺すべし!のGoogle。次の一手「FLoC」もなんだかな...

  • 15,477

  • author Shoshana Wodinsky - Gizmodo US
  • [原文]
  • satomi
クッキー殺すべし!のGoogle。次の一手「FLoC」もなんだかな...

2022年までにChromeもサードパーティCookie撤廃します!

Googleがこう宣言して、Cookie*に代わる仕組みのひとつとしてFLoC(Federated Learning of Cohorts:コホート統合学習、コホートは群衆の意)のテスト利用を開始しましたが、AmazonもAppleもMicrosoftも加わっていなくて反響は今ひとつですよね。

*クッキー。webサイトを訪れたユーザーの情報を一時的に記録するしくみ。ログイン状態を維持したり、広告の好みなどを記憶したりすることに使われる。プライバシー面で懸念があり、廃止の動きが進んでいます。

電子フロンティア財団(EFF)は「FLoCは最悪だ」というブログ記事で「FLoCはトラッキングすることを念頭に考案されたものだ」とボロカスです。ブラウザを開発しているMozilla FirefoxもBraveもサポートしない構え。

検索エンジンのDuckDuckGoにいたってはFLoC完全ブロックの拡張機能をつくって迎撃体制を整え中です。

Web行動の追跡が関連広告は表示できないので、広告業界にとってCookie撤廃は死活問題。大手のなかにはFLoCをCookie並みにしつこい追跡ツールに変える準備をしたり、Googleから収集できるデータを自社保有のユーザデータとくっつけることで「匿名化」されたFLoCの集団解析ログをデータブローカーに売れる個人情報に作り変える動きを見せているところもあれば、「FLoCはフィンガープリンティング(ブラウザをシークレットモードにしてもキャッシュを完全消去してもWeb行動追跡されちまう技術で、Firefoxではブロックされている)には最適なツール」と宣伝してるところもあります。Cookieやめる意味ないじゃん...。

ところが、シェア世界一のブラウザChromeだけはどこ吹く風で、なんか別の現実を見ているかのよう。EFFアドテック担当テクノロジストのBennett Cyphersさんは次のように語っています。

「仮に開発段階でGoogleに予見できなかったとしても、2019年の公開直後にプライバシー保護派から指摘されていたことであり実際そのとおりのことが起こっている。フィンガープリンティングとプロファイリングの道具になって広告事業者に利用されるだけだとというのは、一瞥するだけでピンとくるはずなのに」

FLoCって何? Cookieとどう違うの?

いちおうGoogleの説明では、FLoCはプライバシーをかなり重視した技術ということになっています。

サードパーティ製Cookieは個人のWeb閲覧中のあらゆるクリック、スクロールを記録して人物像のプロファイリングを無数に行ない、これをもとにターゲット広告を行く先々のサイトで表示しますよね。これじゃいけない!ってなことでできたのがFLoCでありまして、個別のトラッキングとターゲティングをやめて、代わりに個々の閲覧行動をもとにユーザーを匿名化された巨大な集団(コホート)に分けて追ってるんですね。

人数は数千人単位。蓄積データは毎週消去されます。

これなら、どの集団に割り付けられたか見るだけでは個人は特定できません。よって長期の個人向けターゲット広告には使えない…ということですね、少なくとも建前上は。

また、FLoC IDはコ~ロコロ変わるのもCookieとの違いです。割り付けられるのはランダムな英数字の文字列で、これを解読できるのはGoogleだけ

しかもブラウザのローカルに保存されるので、名前も聞いたことないサードパーティの会社に保管されることもありません。

このようにすることでFLoCが目指すのは、個人情報を匿名情報のひとしずくに変えて、データの海に紛れ込ませて沈めること。個人の名前やWeb閲覧履歴、ランチ注文メニューなど引き出そうとしても海は深いので引き出すのは容易ではありません。まあ、よくある無記名アンケートみたいなものですかね。

FLoCもうやってるの? 自分ももしかして入ってる?

今年はじめGoogleは初期試験運用で実働シーンの観測を希望する一部広告事業者にFLoCのコホートなるものを一部公開し、FLoCのターゲット広告を第2四半期から配信するプランを明らかにしました。

利用者は300万人で、コホートはすでに3万3,872件作成されており、1件につきChrome利用者2,000人「以上」のデータが保存されています。

テスト運用に際しては、Googleからは何の事前告知もなく、「ある日突然」という感じで試運転プログラムがスタートしたようです。世界規模の実験台にされているかと思うとちょっと気になりますよね。でも、確認できるツールも公式には用意されていません(幸いEFFが用意してくれたのがココにあります。確認ボタンを押すと参加中のブラウザかどうか判定結果が見れますよ)。

拒否できるの?

また、オプトアウト(拒否)を希望してもそのオプションはどこを探しても見つかりません。どうしても抜けたい場合は、なんかサードパーティCookieをすべてOFFにする以外に抜ける方法がないんです。

ちょっとちょっと…FLoCは無法地帯なの?

試験運用はまだ始まったばかりのせいか、広告主、アドテック企業をはじめとする参加者によるデータ利用についてもルールは特にありません。最低6万8,000人近いChrome利用者のコホートデータが追跡・解析・商用利用されていても歯止めが効かないことになります(試験運用についてはGoogleにコメントをリクエスト中です)。

ぶっちゃけFloCでどこまで個人を特定できるのか

事実、試験運用参加中のアドテック企業のXaxis社は、自社開発のCookie代替技術Mookie(ウソでしょと思ったら正式名称だった…)にFLoC IDを組み込む方策を検討中だとDigidayに語っています。FLoCで生成される英数字の文字列について、同社Nishant Desai技術部門ディレクターは「個人を特定するアプローチに新たなディメンションを加えるものだ」といみじくも語ってますよ。マーケターが90年代からずっとターゲット広告で使ってるIPアドレスみたいなものだと思えばいいって。

確かに、ユーザー側で何も入力しなくてもWebページからIDを引き出せるので、手動で入力を促さないと集められないメールアドレスや電話番号より、FLoC IDのほうがはるかに収集はラクなんでしょね。英数字の羅列を見ただけでは個人は特定できなくて、ほかのデータと組み合わせることでしか特定できない点もIPアドレスっぽいかな。毎週リセットするので完全に固定ではないけれど、ひとたびコホートが割り付けられたらたぶんそうそう簡単には変わらない辺りもIPアドレスそのものです。「行動パターンを変えない限りアルゴリズムは同じコホートを割り付け続けるので、ずっと同じFLoC IDのままという人も結構出てくるわけですよ」とディレクター。

群衆行動に紛れ込ませても、ブレないと目立つんじゃ?

そうなると気になるのはそこ。この点について、GoogleソフトウェアエンジニアのDeepak Ravichandranさんは2月下旬のW3Cの電話会議でこう率直に答えちゃってます。

「平均的ユーザーは1日平均3~7件のドメインを回る。この行動パターンは時間が経ってもほぼブレない」

1週間おきにコホートからコホートに渡り歩く人がいても大局でWeb閲覧行動を眺めると、ものすごく似通ったパターンをくり返しているそうなんですね。つまりは、1週間に1回リセットしても前と同じIDが1週間おきに割り付けられるだけ。あんま意味ないわ…ってなります。

FLoC ID利用中の業者のことが知りたい!

Xaxisみたいな動きを見せているアドテック会社はほかにも山のようにあります。

たとえばサンフランシスコのデータ会社Mightyhiveも、ユーザーを別々の「バケツ」に割り付けて、自身のブラウザに割り当てられたFLoC IDが「一定のアクション(特定の製品を購入するなど)」と関連付けられるかどうかを確認中だとDigidayに語っていますし、そうかと思うとアドテック仲介業者のMediavineなんて、サイト約11,000件のビジターのFLoC IDを収拾して自社技術に合体させてパートナーに渡して、どのIDがどのWebページを見たか解析するのに利用してるってオンレコで言ってますし、もうなんでもあり。

以上のようなパートナー企業のことを業界では「Demand Side Partners(DSP)」といいます。暗号化されたID識別子を穴のあくほど眺めて追跡・解析を繰り返して、「わかった!これは新米ママ、これはTikTokユーザー、これは犬が死ぬほど好きな男の人」ってな具合に類推するプロ集団ですね。

今のところFLoCに関しては、こういうラベル貼りはまだかなり大雑把な括りでしかできないんじゃないかな…。希望的観測ではありますが、先のW3CのカンファレンスコールでグーグラーのRavichandranさんもそう言ってました。初期段階ではユーザーがアクセスしたWebサイトのドメインネーム関連尾データだけでコホートを生成していて、ほかのデータは一切参考にしてないのだとか。ひとつのサイトでどのページを開いたか、ひとつのページでどのコンテンツを見たかといったことはFLoCのアルゴリズムでは考慮されていないとのことです(「年内」に変わる可能性もあるそうですが)。

コホートの連番解読はさすがのDSPも歯が立たないんじゃないの?

そう思いきや。先月、元MozillaのDon Martiさん(現在は広告会社CafeMedia勤務)が取引先サイトにアクセスするFLoC主要カテゴリの一部の暗号化を解読して、そのプロセスをブログに普通に書いてました。どびょ~ん。

まずGoogleが生成した3万3,000ほどのコホートを33のメガホートに分けて、それぞれのホート(群衆)行きつけのサイトに関連付けられたキーワードをマッピングして、どうでもいいキーワードを除去して意味のありそうなとこだけ残していったら、なんかこんなのができたそうなんです。

20210619FLoC_keywords
1 kFLoC = FLoCコホート1000集団
CafeMedia

人物像、結構わかるな。

たとえばNo.32の人に割り付けられたキーワードは「ヘルシー」「トマト」「アップル」とあと「豆」なので、はは~ん、オーガニックとおうちごはん沼の人だな…とわかります。No.20(「編み物」「パターン」「ライティング」)はふかふかマフラー編んでくれそうな趣味人。No.15(「コード」「印刷可」「卵」)は…なんかよくわからんけど、シャクシューカ(イスラエルの卵料理)が好物のギークなんすかね。

人に知られたくないこともほかの情報と同じに扱われる

大手ブローカーがすでに保有する情報と組み合わせても個人の特定まではムリっぽいけど、問題はセンシティブな情報の扱いです。たとえば、一番最後の人がトランスジェンダーや陰謀論のサイトをよく回ったりフードスタンプ(福祉の食事配給券)を見てたとしたら? 現状ではそれもほかのWeb閲覧データとまったく同じに扱われてFLoCのアルゴリズムで処理されるので、素性不明なアドテック会社に性癖や懐具合が知られてしまう恐れもあります。仮にそうなっても、データ共有の世界はまだ(大部分が)法律が未整備なので、DSPが最高値のビダーに取扱要注意のデータを売るのを止める法律もないんです。議会もがんばってますが。

Googleだってこれが問題なことぐらいわかってますよね。FLoCで「センシティブなカテゴリ」(人種、宗教、病状など)を踏まないようにするにはどうすればいいか白書にまとめて公開していますし。まあ、この白書についても「努力は認める。ないよりマシ。だけど、こんな解決策では解決すべき難問の本質から目を逸らすだけではないか」とCyphersさんにブログですぐ叩かれてしまいましたが…。

Cyphersさんの言う「難問」というのは、こうです。

・社会的弱者をプロファイリングから保護して、命の危険や経済破綻から遠ざける(お金のない人に詐欺まがいの広告流して、人生破滅させることが広告の世界では行なわれていて大問題)

・サードパーティが金儲けに使えるデータを収集する

この2条件が成り立つ方法を考えなきゃならないんです。そんなことできるんかいな…。

いちおうGoogleは、一部の試験運用参加ユーザーの閲覧履歴を精査して、「センシティブなカテゴリ」に訪問したことがあるかどうかをチェックすることで解決を図ろうとしています。たとえば、訪問先が病院のサイトなら「医療」、教会は「宗教」というラベルを割り付けて取扱要注意にする…といった対処ですね。こうした「取扱要注意のカテゴリ」のサイトをあらかじめ選んでおいて、定期的にアクセスするコホートがあれば、Googleはこの集団へのターゲティングをブロックするというわけです。まあ、「センシティブ」なカテゴリの人は「センシティブ」なサイトに群れをなしてアクセスする前提で話を進めちゃってる嫌いがなきにしもあらずですけどね。鬱の人が年がら年中、精神科.orgに寄るとか、LGBT+の人がGoogleが「ゲイサイト」とみなすサイトに年中入り浸る状況って、ちょっと考えにくいように感じます。Googleの言ってることはまるでロボットの閲覧行動で、人間臭さが感じられないんですよね…。

そんなわけで、みんなが好むと好まざるとにかかわらず、Googleは2022年半ばのFLoC全面導入に向けて邁進中です。「一般公開のFLoC Githubページを見ると、FLoC開発者とプライバシー運動の人たちの間で言い合いになってるんだが、開発サイドが言うことは毎回同じで、『貴重な情報ありがとうございます! こっちが正しいと思うけど参考にさせていただきます』なんだよね」(Cyphersさん)。立石に水で船は進むよ。

Sources: Digiday

FLoC ほしい?

  • 0
  • 0
Googe

シェアする

あわせて読みたい