もう議事録はいらない?日本語の書き起こし精度を試してみた

AWS(Amazon Web Service)は、11/21、音声をテキストに書き起こす「Amazon Transcribe」というサービスの日本語対応を発表した。

※Amazon Web Servicesとは、Amazon.comにより提供されているクラウドコンピューティングサービスのこと。

7言語が新しく対応され、アラビア湾、スイスドイツ語、ヘブライ語、日本語、マレー語、テルグ語、トルコ語でも使えるようになったということだ。

こういった音声をテキストに書き起こすサービスは、すでに、IBMやマイクロソフト、googleなどでは、日本語も含め対応済みとなっている。音声認識自体は、スマートフォンなどでも手軽に試せるので、試したことがある方も多いのではないだろうか。

クラウドベンダーが提供する、こういったサービスは、ビジネスで使う場合は、自社のアプリケーションの中に組み込むことでいろんなサービスに使うことができる。

よく言われるのは議事録書き起こしサービスだが、他にもコールセンターでの顧客の声をテキストにする、会話をマイクで取得して関連する映像を表示する、など様々な利用が期待されているのだ。

しかし、仕事で音声認識技術を使う場合、その認識精度如何によっては期待通りの結果が出ない場合がある。

そこで、ブラウザでも認識精度を試すことができる、IBM Watsonを使って日本語の書き起こしを実際に試してみた。

日本語の書き起こし精度をIBM Watsonで試してみた

IBM Watsonでは、以下のページで実際の性能を試すことができる。言語を「Japanese Broadband」に変えて話して見て欲しい。

watson Speech to text
The IBM Watson Speech to Text service

https://speech-to-text-demo.ng.bluemix.net/

まず、日常的に使うような会話ややり取りについては問題なく書き起こしができた。実際に、「今日のご飯はカレーだよ」「年末はハワイに行きたい」「お年玉もらえるかなぁ」という文書を話してみると正しく認識された。

Speaker 0: 今日のご飯はカレーだよ。
Speaker 1: 年末はハワイに行きたい。
Speaker 2: お年玉もらえるかなぁ。

単語レベルで認識されるものと認識されないものがある。例えば、iPhone, iPad, Apple Watchは以下のように表示された。

Speaker 0: IPhone。
Speaker 1: IPad。
Speaker 2: アップルWatch。

こういった表記の問題は、固有名詞や専門用語の辞書をどのくらい整備しているかが重要になる。

早口言葉はどうだろう。

Speaker 0: 東京特許許可局。
Speaker 1: 生麦生米生卵。

活舌よく話さないと認識されないこともあるが、精度よく認識された。

議事録のようなものの場合どうだろう。次の例文を読んでみた。

[意見交換]5S活動の進め方
・仕事が増えることへの反発が予想される
・総務部の成功事例を公開すれば賛同されやすいのではないか
・社長から5S活動の狙いを全社員に伝えてもらいたい
※5S活動とは、「整理」「整頓」「清掃」「清潔」「しつけ」の5つの頭文字のSをとった活動

Speaker 0: 意見交換。
Speaker 1: ボイス活動の進め方。
Speaker 2: 仕事が増えることへの反発が予想される。
Speaker 3: 総務部の成功事例を公表すれば賛同やすいのではないか。
Speaker 4: 社長からボイス活動の狙いを全社員に伝えてもらいたい。

「5S活動」という聞きなれない単語が、「ボイス活動」と認識された以外は、きれいに認識されている。

日常生活で使うような言葉でのやり取りは問題ないレベル

実際に試したところ、日常生活で登場しそうな言葉のやり取りは、かなりの精度で聞き取ることができていそうだった。

一方で、専門用語や固有名詞は学習しているかしていないかが大きく差がでる傾向にあるようだ。

議事録などで期待されることが多い音声データのテキストへの書き起こし処理だが、全部を書き起こす手間を考えるとある程度の補助にはなりそうだ。

今回IBM Watsonで試したが、他のベンダーのものも今後試してみたい。

Previous

日本コンピュータビジョン、顔認証による入退室管理ソリューションを提供開始

東大と凸版印刷、5Gで仮想テレポーテーションを実現

Next