ITmedia NEWS > STUDIO >

混ざった楽器の音を演奏者の動きで分離 米MITなど研究Innovative Tech

» 2020年11月17日 07時04分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 米マサチューセッツ工科大学(MIT)とMIT-IBM Watson AI Labの研究チームが開発した「Music Gesture for Visual Sound Separation」は、楽器を演奏する複数人の動きを深層学習で分析し、個々の楽器の音を分離する手法だ。ピアノ、フルート、トランペットなどの楽器を複数人で同時演奏した場合に、その映像から演奏者それぞれのメロディーを抜き出す。

photo 同時演奏者の動きから個々の楽器を分離できる

 映像解析ネットワークと視覚音声分離ネットワークの2つからなる「自己教師あり学習」を採用。映像解析ネットワークでは、人体のキーポイント18点、手のキーポイント21点を抽出。次に身体の動きと前後関係を統合し、音楽を演奏する際の身体や指の動きを明示的にモデル化する。

 視聴覚分離ネットワークでは、映像表現と混合音のスペクトログラムから身体の動きとそれに対応する音声信号を関連付け、混合音を分離する。

photo Music Gestureのアーキテクチャ

 本モデルでは、手指や腕などの細かい動きも捉え、楽器によって注目する身体部位を変えることで学習精度を向上させている。例えば、ギターやフルートなどは手指に、チェロやバイオリンなどは肘に注目している。

 これによって学習したモデルは、カメラの視点移動や隠れて見えない身体部分があると精度は落ちるものの、個々のメロディーを高精度に分離することに成功したという。異なる楽器だけでなく、同じ楽器による演奏でも分離できたとしている。

 「URMP」「MUSIC」「AtinPiano」の3つの動画音楽演奏データセットを用いて、モデルの有効性を実証したところ、最先端の手法と比較して定量的に上回る性能を発揮したとしている。

Copyright © ITmedia, Inc. All Rights Reserved.