音声をリアルタイムに字幕にする技術(動画)、ニコ動などに応用(妄想)?

上の映像は、レポーターがしゃべった音声をリアルタイムに字幕にするシステムのデモです。

NHK技研公開で見つけました。音声認識技術を用いています。アナウンサーの原稿や記者の現場レポートなどは、直接音声を認識します(ダイレクト方式)。インタビューなどの音声認識が困難なものについては、別の話者が言い直した音声を認識します(リダイレクト方式)。

いずれの場合も、テレビに表示する直前に1~2名で誤字修正などを行います。

これ、例えばニコニコ動画のシステムなどと組み合わせて「テレビを見ながらつぶやいたことを画面上でみなで共有する」みたいなサービスも考えられますよね。リビングのソファでくつろぎながらニコ動というのはどうかという意見はあるかもしれないし、「wwwww」などはどう言えばいいんだという疑問もわくかもしれませんが。

NHK技研公開は5月25日(日)まで成城学園前のNHK技術研究所で行われているので、もし興味があったらどぞ。オススメです。

NHK技研公開

(いちる)

【関連記事】

3300万画素&22.2マルチチャンネルな家庭用スーパーハイビジョンテレビシステム

3300万画素カラー動画を撮影するビデオカメラ(動画)

派手派手しく地震の緊急速報をかます目覚まし時計(動画)