音声認識を深堀する、AIはどのように使われているのか
小泉: 音声認識におけるAIは、使いどころとしては、どこなのでしょう。
音声認識は、まず喋っているその声を、音の要素に並べ替えていきますね。たとえば、小泉だと「KOIZUMI」を一つの塊として認識するというように。
さらにそうした単語や文節の塊の並びから、意味を理解していく、というようにフェーズが分かれていくと思いますが、その中でAIが使われるのは、どの段階になるのでしょうか。
八子: それぞれの要素に必要だと思います。「言葉を認識する」段階と「文のつながりを理解する」段階ですね。
ただ、音声がテキストになったあとは検索のパターンマッチングの世界なので、AIというような話ではないのかなとは思います。
小泉: 同音異義語の認識はどうでしょうか。たとえば、「アメ(雨)が降ってきた」という場合には、舐める方のアメ(飴)については考えないわけです。
八子: そうした技術はもう既に実装されていますね。GoogleやMicrosoftの翻訳でも、そうした文脈は判断されています。
小泉: AIとひとことで言った場合に、画像認識であれば、「これがピックアップすべきボルトだ」ということは画像として覚えさせておけばいいと思います。
一方で、音声の場合には、何を覚えさせておけばいいのでしょうか。さきほどの「アメ」であれば、食べる飴と降ってくる雨の二つあるということを、誰かが教えているのですか。
八子: 音声をテキストにいったん変換してしまえば、文字の並びからどちらの文脈で喋っているのかということを判断すればよいだけなので、教えると言えば教えてはいますが、それは従来の検索技術や文章を校正する技術によって、ほぼクリアしているのではないかと思います。
小泉: 一般的なことについて話し合っている場合はまだしも、医学や専門的なテクノロジーの話をしている場合には、きちんと意味を理解することができないということも起こりえるのでしょうか。
八子: 会話の中で、音声をテキストに変換する時にだけ、語彙を学習しなければならないと思いますが、テキストになってしまえば、専門用語辞典もたくさん種類がありますので、そこは心配する必要はないですね。
小泉: なるほど。AIが専門用語を検索しながら、意味を理解していくということですね。
音声の段階では、普段も聴いたことのない音を言われると、何を言っているかわからないことはありますからね。そこだけは、補完してあげなければならないですね。
無料メルマガ会員に登録しませんか?

技術・科学系ライター。修士(応用化学)。石油メーカー勤務を経て、2017年よりライターとして活動。科学雑誌などにも寄稿している。