永遠の課題。
ライター業をやっていて、一番面倒だなーと思う作業が、文字起こしです。インタビューやセミナー、講演会などの音声を、テキストにする。この作業がとても時間がかかるんです。
外部の文字起こしサービス専門の人に頼んでしまえばラクなのですが、料金がそれなりにかかってしまうので、低予算の仕事の場合は自分でコツコツやるわけです。
文字起こしの自動化は、ライターたちの、いや、全人類の夢。ちらほら自動的に音声から文字起こしをしてくれるサービスやボイスレコーダーなどが出てきていますが、ちょっと使った限りは、けっきょく自分でやったほうがいいかなという感じでした。その理由は…。
●句読点がなくひたすら文字が並ぶ
●改行がない
●変換精度が低い
●複数人の声を聞き分けられない
といった感じ。
自動で文字起こしされた文章を、読みやすく整形したり、変換が変なところを聞き直したりすると、結局手間がかかってしまいます。なので、僕は自動文字起こしサービスは使っていません。
AIライティングレコーダーの実力は?
で、今回Makuakeでクラウドファンディング中の「VOITER」なるボイスレコーダーをお借りしました。この製品、「AIライティングレコーダー」と銘打たれています。
大きなディスプレイと立派なマイクが特徴的なボイスレコーダーですね。
どんなことができるかというと、音声の録音はもちろん、録音しながらAIが音声を自動認識してリアルタイムでテキスト化してくれます(要ネット環境)。また、録音終了後クラウドに音声ファイルをアップロードすると、再度文字起こしをして精度を高めてくれます。
なお、文字起こしサービスを利用するにはいずれかのプランに加入する必要があります。
ベーシックプラン:毎月3時間無料
使い放題プラン:2,180円(税込)/月で文字起こし時間無制限。1年契約の場合は23,980円(税込)。
購入後1年間は使い放題プランが付属します。さっそく使ってみました。
話者が一人ならけっこう使える
まずは、自分でVOITERのマイクにぼそぼそとしゃべってみました。そして、クラウドサーバーにアップロードして変換した結果がこちら。
僕が最近はまっているのはコンパクトフィルムカメラですね。なんかやっぱりフィルムって温かみがあっていいですよね。もちろんデジタルカメラにも写真は撮るんですけれども、やっぱりフィルムっぽい感じっていうのはフィルムにしか出せないのかなっていう気がします。最近はですね。あのティーピーショップとかで二があフィルムを持って行くとですね。そのままあの現像してデジタル化してくれるんですね。でクラウドに上げてくれたりするんで、そのバス結構1時間ぐらいでデジタルができちゃうんですよ。だからあのー結構仕事とかでも使えちゃったりするのかな?なんて思ったりするんですけどね。1時間ですからね。結構近くにね、ティーピーショップがあればその外で撮影してその場に持ち込んで1時間して僕らで投げてくれるんで、ダウンロードすれば画像ファイルして使えるんで、なかなか面白いんじゃないかなと思います。いつかねあのーフィルムで撮った写真だけで記事作ったりとかしてみたいですね。
ノー編集でこんな感じです。
変換精度は高め。僕が滑舌が悪くなっているところは変換ミスってますけど、それ以外は結構いい感じです。もしかしたら、これは実用に耐えうるかも…? また、句読点が入っているのは見やすくなっていいですね。句読点が入るだけで、読みやすさが爆上がりします。
ガチのインタビューで使ってみた感想
次に、実際にインタビューで使用してみました。ガチ取材で使ったため、音声データやテキストファイルをお見せすることはできないんで恐縮なんですが、さすがに複数人(僕、インタビュー対象、編集者)が話している環境では、辛いものが…。
変換精度は1人で話しているときとそれほど変わりませんが、専門的な用語が出てくると途端に弱くなります。この辺はAIが学習すればよくなる可能性はあると思います(思いたい)。
いちばん「まだ実戦投入は難しいな」と感じたのは、話者の認識ができていないところ。現場に3人いたわけですが、ただテキスト化されただけだと、誰が話した内容なのかがわからないんです。現場にいた人ならばわかるんですが、現場にいなかった人にVOITERで文字起こししたテキストを見せても、混乱してしまうことでしょう。
解決策として、毎回話すときに「●●です」と名前を言ってもらう手もありますが、あんまり現実的ではないですよね。
これはVOITERだけに限ったことではないのですが、やはり話者を認識して、話者ごとに文章が表示されるようにならないと、実用的ではないのかなと思いました。
動画のリアルタイム字幕がおもしろい
VOITERには、800万画素のカメラが搭載されており、写真と動画の撮影が可能です。普通にカメラとして使うこともできますが、実はVOITERは動画を撮影しながらリアルタイムで字幕を作成してくれる機能があるんです。こんな感じ。
これ、おもしろいですね。リアルタイム時は多少タイムラグがあるんですが、録画終了後にクラウドに動画をアップすると、ちゃんと同期されます。
僕はあんまり使い道が思い浮かばなかったんですが、YouTubeで動画を公開するときや、Vlogなんかにいいかもしれません。
複数話者の自動認識があれば即買いだ!
音質に関しては充分。高精度なノイズ処理テクノロジーが入っているので、少々騒がしいところでもちゃんと音声だけを認識してくれます。話者がほぼ1人のシチュエーション、たとえばセミナーや講義のメモ取りがメインなら、だいぶ実用レベルです。
製品の質感もいいですし、ボイスレコーダーとして上質な製品だと思いました。
VOITERはクラウドファンディングのMakuakeで4万3800円から応援購入できます。少々お高いとは感じますが、AIを使っているので、使えば使うほど変換精度が上がってもっと正確な変換ができるようになるのではと、勝手に期待しちゃいますね。
あとは自動改行と話者の認識をしてくれれば、僕は使い倒すと思います。そんな日が来るといいな。いや、絶対来るはずだ!
Photo: 三浦一紀
Source: Makuake