ITmedia NEWS > STUDIO >

やっと現れた市販のAI歌声合成ソフト「Synthesizer V AI」 触って分かるAIの良さ、人の良さ(1/3 ページ)

» 2020年12月28日 10時30分 公開
[谷井将人ITmedia]

 2020年はAI歌声合成ソフト業界が大きく動いた年になった。一般クリエイター向けの“歌うAI”が幾つも発表され、それを使った動画も数千件投稿されるなど一大ムーブメントになっている。そんな中、この業界に新規参入してきたDreamtonics(東京都台東区)が歌声合成ソフトのAI対応版「Synthesizer V AI」を既存ユーザーへのアップデートという形で12月25日にリリースした。私も早速触ってみたのだが、ソフトを操作する中で徐々に、“AIシンガー”の良さ、人の良さが見えるようになってきた。

photo Synthesizer V AI

 Synthesizer V AIはディープラーニングの技術を活用した歌声合成ソフトだ。楽譜を入力し「自動調整」ボタンを押すと、事前に人間の歌声を学習したAIが「しゃくり」や「ビブラート」といった歌唱表現を自動で適用して歌う。実際の作業フローとしては、AIシンガーが歌い方を提案して、人間がそれを修正するという手順の繰り返しになる。

 AIによる歌声合成は、研究としては以前からあるものの、一般のクリエイターが自由に触れるソフトとしてはほとんど出ていない。多くは大学や企業などが内部で使い、表に出てくるのは出力された音声だけだった。有名なものとしては、日本マイクロソフトの「りんな」や、ヤマハの「AI美空ひばり」などがある。

 そんな中でも、16年には名古屋工業大学の「Sinsy」、20年2月にはフリーソフト「NEUTRINO」がAI歌声合成ソフトとして無料で一般公開されてきた。Synthesizer V AIは、市販品のソフトとしてここに加わった。

 SinsyやNEUTRINOと比べたとき、Synthesizer V AIの強みといえるのは、操作性の高さと他の音楽制作ソフトとの連携のしやすさだろう。

 SinsyやNEUTRINOは、楽譜を入力すれば人間のように歌ってくれるが、楽譜を作る機能は持ち合わせていない。歌声を合成するエンジンのみのソフトで、楽譜や出力音声の編集は別途ソフトを導入しないといけない。操作性以前に操作するGUIを自前で持っていないのだ。それでも使う人は当然いる。私もかなり好んで使っている一人だが、操作性に関してはこういう認識だ。

photo Synthesizer V AIとは見た目から大きく違う

 Synthesizer V AIは、ボーカル作成ソフトとしての機能を一通り備えている。GUIで楽譜を打ち込め、即座に再生でき、出力音声も自由に編集できる。市販のソフトならそれが普通といえば普通だが、AI歌声合成ソフトとしてはこれまでなかった。

 音楽制作ソフト(DAW)との連携も強みの一つ。Synthesizer V AIは、DAWと完全に同期させて動かせる。再生ボタンを押せばどちらも同時に再生されるのだ。これで、ボーカルとそれ以外の楽器を同時に聴きながら作業ができるようになる。

 連携できないと、BGMを聴かずにボーカルの編集をしないといけなくなってしまう。これは、分かりやすく言えば曲の流れないカラオケのような状態だ。どう歌えば曲となじむのか、見当がつかない。

 これらの特徴をみれば、Synthesizer V AIがクリエイター向けを本気で狙ったAI歌声合成ソフトであることが分かるだろう。SinsyやNEUTRINOはどちらかというと研究者や歌声合成技術に興味がある人向けのツールという印象だ。

実際に歌わせてみた

 まずは簡単に童謡をいくつか歌わせてみた。基本的な操作は、楽譜を打ち込んで自動調整ボタンを押すだけだ。これで満足できる結果が得られれば作業は終了。非常にシンプルで早い。

楽譜の入力から自動調整までの流れ

 主に音程を自動編集するためそちらに注目しがちだが、よく聞くと、音素と音素のつながりや声質も結構自然なことが分かる。人間と聞き間違えるほど……というと言い過ぎかもしれないが、うまくやれば何人かはだませそうだ。出力結果が気に入らない場合は、何回か自動調整をやり直すといい。毎回違う結果をすぐに出力してくれる。

 AIシンガーのよさの一つはスピード感だ。AIを使わない従来のソフトウェアでは、楽譜を打ち込んでから歌唱表現を加えるまで数クリックというわけにはいかない。ある程度の技術と時間を使って仕上げなければいけない。AIを使えばその部分をいくらか自動化できるので、浮いた時間でクオリティーアップに向けた作業ができるようになったり、他の曲を作れたりする。

 人間に比べても早い。例えば、知らない曲の楽譜を渡したとき、人間とAIではどちらが早く歌声を収録できるだろうか?

 人間は楽譜を読んで、練習して収録する。楽譜を渡した直後に練習もさせずいきなり収録するのは難しい。AIシンガーは楽譜を渡して数クリックですぐにある程度ちゃんと表現をした歌声を出力できる。Synthesizer V AIの場合、かかる時間はせいぜい10秒といったところだ。

 AIシンガーには、いつでも同じコンディションで即座に対応してくれるという利点もある。先ほど「楽譜を渡した直後に練習もさせずいきなり収録」と書いたが、実際にこんなむちゃぶりをやったらどんなボーカリストでも絶対に文句を言うだろう。自身の力も出し切れないはずだ。

 AIシンガーには感情がないので、例えば午前2時に急に思い付いたフレーズをすぐ歌うように命令しても文句を言わない。クオリティーもいつも通りだ。人間のこんな横暴な要望をぶつけても、今のところは反撃してこない。

       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.