マイクロソフト、Microsoft TranslatorとSkype 翻訳にてAIを活用した日本語の音声リアルタイム翻訳機能が利用可能

この記事はマイクロソフトのブログ記事で発表された内容である。

マイクロソフトは、Microsoft Translatorアプリや Skype翻訳(Skype Translator)など、Microsoft Translatorを活用したすべてのアプリとサービスにおいて、日本語をテキスト翻訳および音声翻訳の双方が可能な10番目のサポート言語として追加する。この新機能により、日本を訪れる観光客、そして、観光やビジネスで海外を旅行する日本の人々にとって、言語の壁を取り除く総合的なサービスとソリューションが提供される。

ここ数年間、日本を訪れる観光客の数は着々と増加している。今後数年間に数々の世界的なスポーツイベントが開催され、その数はさらに増加すると予測される。それにともない、日本と海外のコミュニケーション機会も増加していく。こうした状況を支援するため、マイクロソフトは、数年前にAIによる日本語の音声認識と機械翻訳への投資を行なうことを決定した。本日4月7日、Microsoft Translatorの製品ラインと、Skype翻訳(Skype Translator)など、このテクノロジを活用した他のすべてのマイクロソフト製品において、このブレークスルーをすべての人に提供するという。

今回の発表により、日本語を話す人々は、既にサポートされている9言語(アラビア語、中国語(マンダリン)、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、ロシア語)を話す人々と、リアルタイムに対話ができるようになる。

以下の機能が、ユーザー、開発者、企業に対し提供される。

  • Microsoft Translatorアプリ(Windows、Android、iOS 版)のMicrosoft Translatorライブ機能を活用して、自分のデバイスやブラウザ上で、対面型のリアルタイムの翻訳が可能になる。
  • Skype for WindowsとSkype Preview for Windows 10で提供される Skype翻訳(Skype Translator)の機能により、他のSkypeユーザーや電話(SkypeOut の購入が必要)を通して、自分の言語と他言語をリアルタイムに翻訳した通話を行なうことができる。
  • 開発者は、Azureで提供されるCognitive Services APIファミリーであるMicrosoft Translator APIを自身のアプリやサービスに統合できる。
  • 新たにリリースされたMicrosoft Translator PowerPointアドイン (プレビュー版) により、PowerPointからTranslatorのライブ機能を直接使用することで、リアルタイムでプレゼンテーションに字幕を付けることができる。
Microsoft Translator ライブ機能のご紹介

音声翻訳は、単純に音声認識エンジンを翻訳エンジンに接続するよりもはるかに複雑。マイクロソフトは、2014年12月にSkype翻訳(Skype Translator)を提供開始し、2015年にMicrosoft Translator APIとアプリを提供開始したが、新しい言語の追加には、特定の追加作業が必要だった。マイクロソフトのAIと自然言語処理の専門家チームは、あらゆる言語が持つ固有の特性に対応する必要があった。

音声翻訳は、マイクロソフトの独自技術TrueTextによって音声認識用と機械翻訳用の2つの異なるタイプのAIを組み合わせることで実現される。TrueTextは認識された音声を機械翻訳で翻訳可能な形で変換する。

音声はまずマイクロソフトの音声認識ニューラルネットワークシステムへと送られる。このシステムは、人間の自然な対話を扱えるよう設計されており、人間がコンピューターに音声で命令を与えるような単純なシステムではない。

この最初のステップでは、自然言語の専門家が「ディスフルエンシ(disfluencies)」と呼ぶものを含んだテキストが生成される。ディスフルエンシとは、私たちが話すときに(多くは無意識のうちに)繰り返し発生しているつなぎ言葉であり、日本語では「えーと」、英語では ”um” などの言い淀みに相当する。TrueTextは、このようなディスフルエンシを削除し、完全な文章に必要な文頭や特定名詞の大文字化や、句読点の追加を行ない、翻訳ステージでの適切な処理を可能にするという。

次に、TrueTextの出力が機械学習による2番目のAI機能に送られ、完全な文章の文脈を利用し、より流暢で人間らしく聞こえる翻訳が行なわれる。最後のステップで、テキスト読み上げ機能がこのテキストを音声に変換する。

ユーザーは、Outlookアドインを使用して、AIのパワーを電子メールの翻訳に活用できる。また、Microsoft Edgeのアドインを使用して、自分の言語でウェブサイトをチェックできる。短い文章をWebサイトを使用して翻訳したり、単語の意味を調べたり、文章や画像をPCやスマホなど、各種デバイス向けのMicrosoft Translatorアプリで翻訳できるとしている。

この新しい2段階のAIを活用したテクノロジを使用したSkype 翻訳(Skype Translator)を使って、世界中の誰とでもやり取りできるようになる。また、Microsoft Translatorのライブ機能を使用して、多言語で議論したり、プレゼンテーションを行なったり、さらには、来日した観光客向けに通訳することも可能。Azure上のMicrosoft Translator Speech APIを使用して、AIによる音声翻訳機能を自分のアプリやサービスに取り込み、マイクロソフトが投入してきた数十年の開発成果を活用することもできるという。

Microsoft Translator ライブ機能の使い方

Microsoft Translatorを活用したアプリやサービスの家庭、職場、旅行先での活用方法についての追加情報はこちらを参照。

【関連リンク】
マイクロソフト(Microsoft)

Previous

ファーウェイ、HUAWEI Watch 2の接続にOTのeSIMを採用

PTCとOSIsoft、インダストリアルIoTソリューション開発における協業を発表

Next