ビデオ会議の顔がクッキリ! 顔ごとカメラにぐるっ!NVidiaのAI動画圧縮が未来

  • 9,797

ビデオ会議の顔がクッキリ! 顔ごとカメラにぐるっ!NVidiaのAI動画圧縮が未来
ほぼ同じ負荷なのにこの違い Image: NVidia

背景音のノイキャンもすごかったけど、こ、これは…!

圧縮しすぎで幽霊のように乱れたテレカン顔にさよならできる夢のAI動画圧縮がNvidiaから出ました!

YouTubeもNetflixも、ストリーミングでは圧縮アルゴリズムで帯域負荷を減らしてISPの帯域幅に合わせていますよね。圧縮方法はさまざまですが、色を犠牲にしたりコマ数を減らしたり、あと、解像度をギリギリ落とすこともあるので、像が荒くなって90年代の電話回線のビデオチャットみたいになることもしばしば…。アルゴリズムが進化すればもっと低容量で高画質になってくんだろうなーとは思いますが、NvidiaがWeb会議の新プラットフォーム「NVIDIA Maxine」 用に発表したAIによる圧縮なら、未来を待つまでもなく問題を解決できます。

なんせニューラルネットワーク(人間の脳を模したアルゴリズム)。顔スワップも、写真&動画のエンハンスメントも思いのままで、つい最近まで特殊効果アーティストじゃなきゃできなかったようなことも可能です。Web会議って相手の目を見て話しても、あらぬ方向を見てしゃべってるように見えますが、それだってカメラ目線に補正できるし、別のアングルから撮ったかのように見せることもできるし、その気になれば、自分が言ってもいないことを言わせたり、やってもいないことをやらせたり…って、一歩間違えるとディープフェイクですけど、まあ、使い方さえ間違えなければいろいろ応用が効きそうですよ?

しくみをビデオで見てみましょう。

Video: Nvidia Developer/YouTube

なるなる~。毎秒15~30フレームずっと送り続けるのではなく、フレームを間引いてキーフレームだけ一定間隔で送ってるんですね~。もちろんそれだけだとパラパラ漫画になっちゃうので、顔の動きがわかるように定点データも送ります。でも追うのは目と鼻と口と輪郭の点々のデータだけなので容量はほとんどかからないというわけ。

20201008nvidia-ai-compression
Image: Nvidia

受信側は高性能GPUのニューラルネットワークで、定点データをもとに抜けてるフレームをみっしり補います。だからこんなに滑らかな映像ができるのか…! 圧縮アーティファクトもまったくありません。

まるでカメラを変えたみたいな差ですけど、こんなに高画質なのに帯域負荷は控えめで、Nvidia研究チームの試算では一般的な動画圧縮規格(H.264など)のなんと10分の1まで負荷を落とせるんだそうですよ? いいことずくめ。

これなら電波の弱い出先でもオフィスの安定した高速回線の感覚でテレカンできるし、月々のデータ通信量もそんなに気になりませんね。

20201008nvidia-reanimate
カメラに顔の向きごと変わるのも地味にすごい
Image: Nvidia

Sources: Nvidia

    あわせて読みたい