瞬きしない人間なんていない!
世界が震撼している偽動画「Deepfake」。人工知能によって、今まででは考えられないほど安価かつ簡単に合成偽動画が作れてしまうという恐ろしい時代です。偽ポルノはもちろん、政治的な偽動画まで、ありとあらゆるフェイクっぷり。この流れになんとか対抗する手はないのでしょうか。毒をもって毒を制す、テクノロジーにはテクノロジーで対抗です。偽動画を見破る重要な鍵となるのは…瞬き。
ニューヨーク州立大学オールバニ校の研究チームが、先日、瞬きをもって偽ポルノを見破るという内容の論文を発表。2つのニューラルネットワークを連携させ、呼吸や心拍、瞬きなど、人間の必要不可欠かつ自然な動きに注視するというのです。
研究チームによれば、人間の自然な瞬きの回数は1分間に平均17回、話している時はこれが26回、読書中だと4.5回ほど。動画の中の人がまったく瞬きをしなければ、作られた偽動画である可能性が限りなく高いというわけ。

では、Deepfakeの偽動画は、なぜ瞬きをしないのでしょう。これ、面白い話ですけど、目をつぶっている画像をネットにアップする人が少ないからです。となれば、人口知能に学習させるために食わせるデータにも、目を閉じている画像はほぼ入っていないことになります。DeepFake動画を作るには、たくさんの画像を集める必要がありますが、目を閉じた画像がなければ、そもそも偽動画の中の偽人間に瞬きという概念はないわけで。
瞬きで見抜くという論文は以前にも発表されていましたが、今回のオールバニ校の研究チームは、さらに見抜く精度を向上。以前の論文では、メソッドEAR(Eye Aspect Ratio=目のアスペクト比)か、メソッドCNN(Convolutional Neural Network=畳み込みニューラルネットワーク)のいずれかを用いて、目の開閉状態を認識していました。今回の論文ではメソッドCNNに、RNN(Recursive Neural Network=再帰型ニューラルネットワーク)を加え、動画の各フレームごとの目の状態をチェックするアプローチを実施。より、スムーズかつ正確に目の動きを予想でき、その精度は0.99までアップ(CNNは0.98、EARは0.79)。
しかし、「やった、これでもう大丈夫だ!」と言えないのがテクノロジーの世界。偽動画も常にアップデートしてますからね。困ったことに、Deepfakeだって驚くような進展をみせているわけで。たとえば、Deep Video Portraitsというシステムを使えば、ソースとなる動画内の人間の動きを、雇った演者の顔の動きに合わせるということができてしまいます。こうなれば、普通の人間である演者は瞬きしますから、結果、偽動画の中の人も自然な瞬きをしてしまうわけで…。
Deepfakeを作る側と、それを見抜く側のテクノロジーのいたちごっこです。技術を発展させていく人たちは、何も悪いことやったろうって思って研究しているわけじゃないですから。それを「これ、〇〇ちゃんの偽ポルノ作れるな」って利用する人が悪なわけで。技術に罪はない、悪いのはそれを使う人間なんだ! そう叫んだところで、何の問題解決にはなりません。作る側だけでなく、見る側にもモラルが求めらえる時代。
Deep Video Portraitsの開発に携わったスタンフォード大学の客員アシスタント教授Michael Zollhöfer氏はこう語ります。
個人的には、現代の動画生成・動画編集技術で何ができるのか、みんながもっと知ることが重要だと思います。
そうすれば、日々見る動画のコンテンツにもう少し厳しい目を持てるようになりますから。オリジナル動画だと明記がないものは特に、です。
Image: University at Albany, SUNY
Source: The Register
Melanie Ehrenkranz - Gizmodo US[原文]
(そうこ)