手話を知らなくても大丈夫…機械学習による自動読唇術で音声なしのスムーズな会話が可能に

手話を知らなくても大丈夫…機械学習による自動読唇術で音声なしのスムーズな会話が可能に 1

日本語でもできるかな?

もし声に出して会話ができない、音声のない世界に身を置くことになってしまったとしたら、どうやってコミュニケーションを取りますか? 筆談をしたり、手話を覚えたり、いくつか選択肢はあるものの、もっとも手っ取り早いのは、話す人の唇を見て、なにが語られているのかを読み取る「読唇術」かもしれませんよね。

とはいえ、音声をシャットアウトし、口の動きだけで会話を読み取るなんて、簡単なことではありません。ゆっくりと話してもらっても、やはりハードルが高いのは否めないでしょう。言語によって違いはあるでしょうけど、読唇術のプロであっても、読み取り精度は52%程度とされています。

しかしながら、このほど英オックスフォード大学の研究チームは、読唇術専用のソフトウェア「LipNet」によって、なんと93.4%の読み取り精度という、これまでにないほどの高精度を達成したと発表しました。耳の聞こえない人のコミュニケーションレベルを大幅に向上させられるほか、音声認識技術の改良にも役立てられていくそうですね…。

LipNetのカギを握るのは、Google「DeepMind」をフル活用した機械学習システムです。これまでもコンピュータの力を借りて、読唇術を進める試みがあったものの、いずれも単語レベルで読み取るアプローチでした。しかしながら、LipNetの研究にあたって、読唇術のプロは長い言葉ほど正確に読み取れることに着目。それならばと、まずはいっそのこと話されている文章全体を解析することに努め、その後で1語ずつを正確に読み取っていく手法が採用されたんだとか。

さまざまな話者の複数会話をデータベースとして蓄積していくことで、ますますLipNetの精度は高まることでしょう。いまやスマートフォンが普及して、ビデオ通話だって一般的なサービスとなりました。カメラに向かって話すと、たとえ通話先の相手が難聴者でも、読唇術だけで、なにが語られたのかをテキスト化して会話ができれば、ますますコミュニケーションの幅は広がっていきそうですよね~。

コミュニケーションとテクノロジー関連記事:
人類の新たな脳波リズムが確認されたのは、アレをしているとき
Googleの新メッセージアプリで、人は感情を失う

image by YouTube
source:Cornell University Library 1, 2 via Laughing Squid, YouTube

Andrew Liszewski - Gizmodo US[原文
(湯木進悟)