Uberはいかに日々の利用者データを監視しているのか?

Uberはいかに日々の利用者データを監視しているのか? 1
Image: Gil C/Shutterstock.com

これくらいのデータ活用は企業として当然? それともやりすぎ?

Uberの元従業員Samuel Ward Spangenbergさんが起こした裁判は、Uberに関する2つの事実を明らかにしました。1つ目はUberがどういった利用者データを保有しているのか、2つ目はUberがそのデータについてユーザーから隠しておきたいと思っていることです。

2016年の5月に起こされた訴訟で争点となったのがUberのセキュリティー管理について。同年12月にドライバーが過去の交際相手や有名人のデータにアクセスしていたことが明かされると、Spangenbergさんの裁判は大々的に報じられることに。データの管理についての批判が集まる中、Uber側は"業務に不要なデータに従業員がアクセスすることはない、あらゆるデータアクセスはログが残されている、定期的な監査が行われている"を主張していました。

Uberは実際に利用者データをどう扱っているのか。裁判資料として提出されたデータ一覧から見えてくるかもしれません。スプレッドシートには、ユーザーがサービスを利用する度に記録される500項目以上のデータが記載されています。

Uberはいかに日々の利用者データを監視しているのか? 2
Image: Gizmodo US

Spangenbergさんの主張を裏付けるために提出されたスプレッドシートには、Uberの従業員がアクセス可能なデータが載せられています。システムから抽出したと思われるリストには、“has_ride_allowed_low_risk_tag.”といったカテゴリ名も。Spangenbergさんは自身のデータをサンプルとして入力しています。

膨大なデータから明らかなのは、Uberが顧客とのやりとりを一から十まで記録しようと試みていること。例えば、アカウントを作成した時間だけでなく、どこでアカウントが作成されたのか、アカウント作成後どれくらいでUberに初めて電話をしたのか、そしてどれくらいの間アカウントがアクティブだったかを秒単位で記録しています。

さらにスプレッドシート上で"greyball"という単語がフィールド名に含まれている項目は10件ほど存在します。The New York Timesが3月に報じた内容によると、"greyball"はUberが解析のために内部で実行しているプログラムだと考えられています。チーフ・セキュリティー・オフィサーのJoe Sullivanいわく、"greyball"タグはユーザーに通常のアプリビューとは異なるバージョンを表示させるために使われているのこと。あくまで特定のユーザーへのマーケティング目的で利用しており、無害であるとしています。

しかし、オレゴン州のポートランドでは2014年、市議会のメンバーのアカウントに"greyball"を適用し、当時はまだ市の法律に違反していたUberXのドライバーとマッチングしないよう試みたのではという疑惑も。司法省は"greyball"の利用方法に関して捜査中です。

Uberの広報担当Melanie Ensignさんは"greyball"について以下のようにコメントしています。

"greyball"は悪用を防ぐために開発されたものですが、他にも利用価値があるのではと考えているチームもあります。

他にも“Guardian”や“Sentinel score”、“Honeypot” などプログラム名と思われる単語はいくつもあります。Ensignさんは「"Guardian"はなりすまし防止に使われている」と述べていますが、他の特定のタグについてのコメントは拒否しています。Bloombergによると、"Guardian"は2015年に中国でUberのなりすましを防止するために使用されたとのこと。

Uber側の弁護士はドキュメントについて、「機密情報やプライバシー情報が含まれていること、Uberが保管の必要があると位置付けていた重要なデータが明らかになっているという点から、被告人にとって細心の注意を払って扱うべき情報である」と主張しています。さらに、ドキュメントはUberの内部で開発されたソフトウェアやデータベース、システムなどの機密情報に言及していることも付け加えています。

たしかに、膨大なデータを含むスプレッドシートからは、Uberがプライバシーに関わる情報を保有していることがわかります。そしてユーザーとUberの保有している情報の間には大きな不均衡があることも。ユーザーがA地点からB地点へ移動しようとする時、Uberのシステムは彼らの行動から取るに足らないと思われる情報まで微細に繰り返し収集しているのです。

Ensignさんは今回公開されたドキュメントについて、詐欺行為やハックされたアカウントを検知するためにマシンラーニングシステムが使用するシグナルの一覧であること、そして"利用規約に書かれている"文言に基づいたデータを取得していると述ベています。

すべてのシグナルはIPアドレスや支払い情報、デバイス情報、ロケーション、Eメール、電話番号、口座履歴から取得したものです

つまり、Uberは7つの情報を複数の切り口から分析し、膨大な情報を導き出しているのです。例えばユーザーがUberにロケーションや支払い情報へのアクセスを許可すると、ユーザーがよく使う道順を示すGPSデータ、一度の利用で支払った金額や支払い方法、過去一週間で支払った金額、最後にキャンセルした日時、過去5分間(あるいは10分間、30分間、300分間)で何度キャンセルをしたか、クレジットカードを何度変更したか、登録したメールアドレス、メールアドレス変更の有無まで導き出すことが可能です。

さらに“suspected_clique_rider”や“potential_rider_driver_collusion.”など、いくつかのタグについては、特定のユーザーに対してつけられていたと思われるものも。

Uberがこうしたデータの監視を行なう目的は、詐欺師や悪用者などアブノーマルなユーザーを特定し、適切に対応するためだと言います。先ほどの"greyball"の件も含め、Uberがトラブルを起こす場合、度が過ぎた"アブノーマルなユーザーへの対応"が原因な場合も多くあります。

ドキュメントには“in_fraud_geofence” や“in_fraud_geofence_pickup.”といったフィールド名もありました。ジオフェンシングとは仮想世界で境界を設けること。Ensignさんいわく、こうしたタグはプロモコードを悪用しようとするユーザーにフラグを立てるために使われるとのこと。例えばスポーツイベントに向かう人に適用されるプロモコードがあった場合、同じコードを違う目的で使おうとする人を検知することができます。

しかし、Uberとジオフェンスに関するThe New York Timesの記事では、Uberが政府の建物の中からアクセスしている特定のアカウントをトラッキングしたと報じられています。さらに、4月にはUberがアップル本社にジオフェンシングを行ない、フィンガープリント法を用いてアップルの従業員が気づかないように、アプリが異なる動作をするよう操作していました。

フィンガープリント法により、ユーザーが端末のコンテンツを削除したとしても、ユーザーをトラッキングすることが可能になります。もちろんAppleのプライバシールールに反しているこの行為。Uberはアップルの従業員の自宅アドレスまではジオフェンシングすることができず、本社の外で働くユーザーによってフィンガープリント法とジオフェンシングを行なっていたことが判明しました。AppleのCEOティム・クックは2015年に、UberのCEOであるTravis Kalanickへ個人的な警告を送っています。

ドキュメントは、Uberのタグの仕組みが詐欺を防止する以上の用途で利用されうることを教えてくれます。Errata Security社のセキュリティーコンサルタントであるRob Grahamさんは、ドキュメントの公開をUberが恐れている理由について以下のように話します。

Lyftにとっては大変ありがたい事だと思います。これらのフィールドを理解するための背景を知ることができるのですから。Uberに反対する人やUberが嫌いな人にとっても同様に朗報でしょう。(個人的にはUberのファンですが)これらのデータは"greyball"がいかに悪用されているのかを示す根拠にもなります。

Lyftの広報担当に"Uberのドキュメントが公開されたことよって恩恵を受けた部分があるか"を尋ねましたが、コメントをもらう事はできませんでした。

マシンラーニングを用いてユーザーの行動を詳細に分析し、”アブノーマル”なユーザーを見つけようとしているのは決してUberだけではありません。

しかし、Uberが監視システムを本来の目的以外に利用したという事実は存在します。例えば数年前パーティー用に開発されたユーザートラッキングシステム「God View」を使って、ジャーナリストをトラッキングしていた事実も明らかになっています。さらに悪用防止のツール"greyball"は政府の規制当局の目をそらすために利用されました。さらに偽のLyftドライバーアカウント作成して、ドライバーの周囲にいるLyftドライバーの情報をUberに提供するプログラム「Hell」の存在も指摘され、Lyftから訴訟を起こされています。

ドキュメントに記載されているコード名とタグの数々を前にすると、これはほんの一部であり、さらに膨大なデータを保有しているのだろうと想像せずにはいられません。

Spotifyの初期バージョンは海賊版のMP3音源を配信していた!?

Image: Gil C/Shutterstock.com
Source: Reveal, The New York Times(12), UBER Newsroom, Bloomberg, Forbes, The Verge, Fortune

Kashmir Hill - Gizmodo US[原文
(Haruka Mukai)

あわせて読みたい

    powered by CXENSE