Pixel 4の「リアルタイム文字起こし」試してみた。 iOSユーザーはどのアプリを使えばいい?

  • 20,542

  • X
  • Facebook
  • LINE
  • はてな
  • クリップボードにコピー
  • ×
  • …
Pixel 4の「リアルタイム文字起こし」試してみた。 iOSユーザーはどのアプリを使えばいい?
Image: Google

英語の書き起こし、すごい進化しててうらやましい。

日本語はまだまだ先の話かもしれませんが、Pixel 4のRecorderアプリを筆頭に英語の書き起こし機能が進化しています。果たしてPixel 4の書き起こしは実用的なのか? iOSユーザーは何を使えばいいのか? 米GizmodoのDavid Nield記者によるレポートです。


Pixel 4 とPixel 4 XL の新機能のひとつに、音声をリアルタイムで文字として書き起こししてくれるRecorderアプリがあります。学校の講義やインタビューなど、使える場面は無限大です。

オフラインでも使用でき録音の文字起こしをしたいときに強い味方となってくれそうですが、性能面はどうなんでしょう? また、Recorderアプリだけが書き起こしアプリではありませんので他のアプリもここでご紹介します。

Pixel 4 または Pixel 4 XLをお買い上げなら、Recorderアプリはすでにインストールされています(またはここからダウンロードできます)。このアプリはPixel4シリーズ以外のAndoroid端末にもインストールすることができますが、その場合はリアルタイムでの音声文字起こしは残念ながら使えません(Motion Senseもしかり)。だってこの機能はGoogleが新型のフラグシップスマホを売り上げるための目玉機能なんですから、古い機種では使えないよ、というわけです。

アプリの外観はシンプルだけど味のあるデザイン。見るからに録音ボタンと言わんばかりの大きなボタンを押せば録音が始まります。記録が始まるとAudioタブが現れ、録音しているサウンドを視覚的に見ることができます。この画面はリアルタイムの文字の書き起こし画面との切り替えが可能です。

2
Image: Gizmodo

Recorderは人の会話と音楽を聞き分けることができます。どちらを聞き取っているかはAudioタブに表示されます。今のところ文字の書き起こしは会話だけに反応しますが、曲の歌詞も書きとることができるにはできます。(聞き取りが難しい歌詞を書き取りたいなら、別のアプリをおすすめしますが)

でもまだまだ完璧とは言えない

下の一旦停止ボタンをタップすると、録音しているファイルに名前をつけることができ、位置情報も記録できます(Recorderアプリは繰り返し出現する言葉を認識し、これをタイトルのキーワードとして推奨してくれます)。ここで端末に録音を保存することもできますし、もう一度ボタンを押すと録音を再開できます。

さて、果たしてこのアプリ、使えるのでしょうか? 米Gizmodoで試してみた結果は...非常によくできているとは言えるが、残念ながら完璧からは程遠いものであると言っておかなくてはならないでしょう。

まず、アプリはすべての会話を聞き取ってくれません。ただ、音声がクリアでバッググラウンドに騒音があまり含まれていなければ、9割は聞き取れるといっていいかも。気なるのは書き起こしに穴があることで、それはまるでPixelのAIが聞き取りと聞き取りの間に「息継ぎ」しているかのようです。

3
Image: Gizmodo

聞き取りにくい音声や、バックグラウンドが少しうるさい場合には、精度はかなり下がります。でも、公式にサポートされているのは今のところ米国英語のみ。私たちがRecorderアプリを試したときは英国英語の音声を使用したので、これはGoogleに少し分が悪かったかもしれません。この対応言語については、これから順次増えていくとのこと。

残念ながら今のところ、文字起こしを編集することはできません。録音の検索はできるため、特定の語を見つけることは可能です。便利なのは、ささやきや歓声、音楽などのサウンドを検索可能なこと。

Googleお得意の機械学習がここでもキーとなっています。Pixel 4とPixel 4 XLの小さな体に言語処理モデルを詰め込んでいます。Pixel 4 は似たような技術を使ってGoogle LensやNow Playing の楽曲認識も提供していますよね。

ほかの文字起こしアプリはどう?

Pixel 4を購入するとRecorder アプリは無料でついてきます。でも、このRecorderアプリの強力なライバルはOtterアプリではないでしょうか。元Google社員が開発したこのアプリは、AIを使ってライブの会話も録音の会話も音声として認識してくれます。

Otterの音声認識がGoogleのRecorderアプリと違う点は、Otterでは会話している複数の人まで認識するという点です。これは今のところRecorderではできません。 書き起こし検索はOtterにもついています。ライブ会話の書き起こしについては、Android 用または iOS用のアプリを使います。無料で書き起こしできるのは600分。

これを超えたら、月10ドル(約1080円)または 年100ドル(約1万800円)のサブスク料金を支払う必要があります。有料登録をすれば、 カスタムボキャブラリーサポートや Dropboxとの統合機能、空白をスキップする機能などがもれなくついてきます。Pixel 4 を持っていてもいなくても、ちょっと試してみる価値はあるかもしれません。米Gizmodo編集部で試したところによれば、機能的にはRecorderアプリとどっこいでした。

4
Image: Gizmodo

AIを活用して 会話から文字を書き起こすOtterに似たサービスは他にもあります。ただし、今のところいずれもリアルタイム文字書き起こしの域にはいたっておりません。

Temiは音声をアップロードしてから 書き起こしまでにかかる時間について、5分を約束しています。(Android または iOS アプリを使用可能)書き起こしたテキストは必要があれば編集もできます。

Temiの書き起こし時間と精度は、限られたテスト環境の中で検証済みです。お試し時の書き起こしは(最大45分)無料でできますが、それ以上の長さになると1分0.10ドル(約10.8円)かかります。 Otterではサブスクに加え従量制も用意しており、書き起こしのニーズによって料金が選べるようになっています。

5
Image: Gizmodo

Trint アプリもAIを使った会話の文字起こしツールです。ただし、使えるOSはiOS だけ(Androidは提供なし)で、リアルタイム処理はエンタープライズユーザー限定のサービスとなっています。

OtterとTemiに比べると高価で、7日間のお試し期間が終わると1時間につき15ドル(約1620円)か、月々40ドル(約4,350円)かのいずれかの料金体系を選べます。後者のプランは文字起こしは3時間まで無料(時間あたり13.33ドル、約1,440円の計算)汎用的なオンラインエディタがついて機能は充実しています。

もちろんこういうテクノロジーを使わないで人力という従来からある歴史的な手法を使うことも可能です。時間はかかるが、AIの仕事よりははるかに精度のよいものを提供してくれるでしょう。少なくとも現在のところはね。