音は、空気の圧力変動であり、ある地点で発生した音は、波として空気中を伝わっていき、人間は、音を聞くことでその音色や響き、音が鳴った方向など様々な情報を得ることができる。
しかし、音は水面とは異なり、目で直接見ることができないうえ、反射や回折をともなって空間中を複雑に伝搬するため、音がどのように発生し伝わっていくかを把握することは困難だ。
日本電信電話株式会社(以下、NTT)では、音を聞くのではなく「見る」ことを可能とすることで、音に関する様々な課題を解決できると考え、光を用いて音が伝わっている空間(音場)を見える化する技術「光学的音場イメージング」の研究を進めてきた。
光学的音場イメージングは、目に見えない音を光の明るさに変換する特殊なイメージング装置を用いることで、ある瞬間の音の波紋の形を写真を取るようにそのまま画像として記録する技術だ。
一般に音の空間特性の測定に用いられるマイクロホンアレイと比較すると、光学的音場イメージングは約100倍の空間分解能を有している。
これによって、音の波がどこからどのように伝わっていくのかを「見る」ことができるようになる。
しかし、「光学的音場イメージング」では、非常に小さな信号の変化を検出する必要があるため、相対的に光学的なノイズの影響が大きく、これまで高感度かつ高精細に音を見える化することは困難であった。
そこでNTTは、光を用いて音をセンシングする光学的音響計測技術において、音の物理特性を考慮した独自の深層学習モデルを用いた、高精細な音の見える化を実現した。
光学的音場イメージング技術では、光を用いて空気中の音を検出する。(トップ画参照)
音は、空気中を粗密波として伝わるが、音響光学効果と呼ばれる現象により、音がある空気中を光が通過する際に気体の粗密に応じて光の速さが僅かに変化する。
レーザ光を測定したい音場内に伝搬させ、干渉計などの光学技術を用いて音によって生じた光の微弱な変化を高感度に検出することにより音が測定される。
光学的音場イメージング技術では、このような光の変動を、ハイスピードカメラ用いて毎秒数千~数十万フレームの速さで撮影することにより、音波を動画像として捉えることができるのだ。
今回の成果では、光学的音場イメージングおよび独自の深層学習モデルを用いて、音を動画像として捉える光学的音場イメージングの高精度化に成功した。
その結果、従来技術では検出することのできなかった微弱な音の波を、高精細にイメージングできることを示した。
上図は、光学的音場イメージングにより撮影された音場画像を60マイクロ秒ごとに示したもので、左から右に向かって音波が伝搬している。この成果によるAI処理によって、音の波が空気中を伝わる様子が捉えられていることが分かる。
また、ハイスピードカメラにより撮影されたノイズを多く含む画像に対して、画像中に含まれる微弱な音波成分のみを高感度に抽出するニューラルネットワークを適用することにより、高精細な音の画像化が実現された。
今回の成果では、ハイスピードカメラにより撮影された動画像の中から、不要なノイズを除去し、音波のみを見える化する独自の深層学習モデルを新たに考案し、高精細な光学的音場イメージングを実現した。
独自のモデルでは、音の物理的な性質に基づいた演算により人工的に生成した訓練画像を用いて、ニューラルネットワークの学習を実施した。さらに、動画像を周波数毎に独立して処理する独自アルゴリズムにより、従来手法を大幅に高精度なノイズ除去処理を実現した。
これにより、空気中を伝わる音の波を動画像として観測することができるようになった。
この成果により、騒音の評価や新たな音響デバイスの開発、従来技術の高効率化などへの貢献が見込まれている。さらに、将来的には空間の音を完全にデジタル化する「音のデジタルツイン」技術への活用が期待されているとのことだ。
なおこの成果は、2024年6月24日より開催される「コミュニケーション科学基礎研究所オープンハウス2024」に出展される予定だ。
無料メルマガ会員に登録しませんか?
IoTに関する様々な情報を取材し、皆様にお届けいたします。