マイクロソフトの人工知能と研究チームが、音声をリアルタイムに文字に変換する、音声認識システムを発表した。
研究者が発表した「単語を間違った率(word error rate(WER))」 は5.9%で、先月の6.3%から減った。5.9%のWERは、同じ会話の写字を頼まれた人のWERとほぼ同じで、産業基準であるスヴィッチボード会話音声認識テスト歴史上で最低率である。「人間と同じレベルのWERを達成しました。これは歴史的な業績です」同社のチーフ会話研究者のXuedong Huangが語った。
この結果によって、マイクロソフトのチームは去年設定したゴールと周囲からの期待を大きく上回った。1970年代にDARPAが会話音声認識研究を始め、途中で大手技術会社と研究組織が参加してきた。Speech & Dialog research groupのジョフリー・ツウェイグ氏によると、同成果は会社の二十年以上にわたる努力によるものだそうだ。
この研究結果は、会話音声認識による強化可能な消費者向けとビジネス向けの商品に幅広い影響を与えると期待されている。このような商品の例として取り上げているのは消費者向けの機械Xbox、音声をテキストに変換するツール、Cortanaのような個人デジタルアシスタントなどだ。
ディープニューラルネットワークは膨大なデータを使って、画像や音声などのインプットからパターンを認識できるようにコンピューターシステムを学習させる。今回の成果を達成するために、研究チームはマイクロソフトのComputational network toolkitを使用した。同システムはオープンソースライセンスでGitHubで公開されている。同システムの深層学習アルゴリズム処理能力は研究の速度に大きく貢献し、今回の結果に繋げた。
今後、同技術の現生活環境(雑音が多い場所を含めて)で性能を確認する予定だという。さらに、複数人の会話中、声の特徴、年齢、アクセントなどを問わず、「誰が何を話しているか」を認識する技術にも挑む。将来的には、研究者が人間の会話音声をテキストに変換する技術ではなく、その内容の理解技術に集中するという。この技術は実現すれば、機械は質問に答えるようになり、言われたどおりに行動ができるようになる。
マイクロソフトの人工知能と研究グループのトップであるハッリー・シャム氏が「これから、人間がコンピューターを理解するべき時代が終わり、コンピューターが人間を理解するべき時代になる」と述べた。しかし、本格的な人工知能はまだまだ遠いと訓戒した。
Source:Microsoft
無料メルマガ会員に登録しませんか?

IoTNEWS代表
1973年生まれ。株式会社アールジーン代表取締役。
フジテレビ Live News α コメンテーター。J-WAVE TOKYO MORNING RADIO 記事解説。など。
大阪大学でニューロコンピューティングを学び、アクセンチュアなどのグローバルコンサルティングファームより現職。
著書に、「2時間でわかる図解IoTビジネス入門(あさ出版)」「顧客ともっとつながる(日経BP)」、YouTubeチャンネルに「小泉耕二の未来大学」がある。