ITmedia NEWS > AI+ >
ITmedia AI+ AI活用のいまが分かる

声のプロに音声合成AIの品質はどう映る 声優・森川智之さんが語る“技術への向き合い方”(1/3 ページ)

» 2022年01月24日 18時30分 公開
[谷井将人ITmedia]

 「辛口なことを言うと、もっと詰められる部分はある」――声優の森川智之さんは自身の声を再現したAIの声を聞いてそう感じたという。

 森川さんといえば、映画「ミッション イン ポッシブル」のイーサン・ハント(トム・クルーズ)役、「ジョン・ウィック」のジョン・ウィック(キアヌ・リーブス)役、「クレヨンしんちゃん」の野原ひろし役などを務める有名声優だ。

photo

森川智之(もりかわとしゆき)

声優事務所アクセルワン代表取締役。

トム・クルーズやキアヌ・リーブスなどハリウッド俳優の吹替を担当する他、アニメ作品にも多数出演。

現在は自身が立ち上げた声優事務所「アクセルゼロ」で後進の育成にも当たっている。


 2021年9月、小学館とAI音声合成のスタートアップCoeFont(東京都港区)は、音声合成AIを生成できるクラウドサービス「CoeFont」を活用して森川さんの声をAI化。その音源を使ってオーディオブックを作成し一般公開した。

 まずはその音声を聞いてみてほしい。森川さんのボイスサンプルと合わせて聞くと違いが分かりやすいだろう。

CoeFont音源による朗読(試聴ページ)

アクセルワン プロフィールページ

 今回は森川さんに、声で表現するプロの視点でCoeFontの品質や可能性について語ってもらった。

収録は2時間ぶっ続け 入れて当たり前な“感情”を入れない

―― 森川さんはアニメやゲーム、映画吹替などで幅広く活躍されていますが、CoeFont音源の収録は一般的な収録と比べていかがでしたか?

森川 基本的に声優の仕事っていうのは、相手に気持ちを伝える“表現”なので、マイク前で発声するときは相手がいると意識して気持ちを乗せてしゃべっています。

 CoeFontの収録では担当者さんから「感情を入れないで淡々としゃべってほしい」という指定がありました。今回のように音声データを収録するときは、あまり意味を成していない文章を何百個も録音していくのですが、感情を入れずに“音声データとして正しい音”を発するのでいつもの収録とは全く違う仕事でした。

―― 今回の収録では何文をどのくらいかけて録音しましたか?

 700文を2時間ですね。スケジュールの都合上急いで録音したので、自分の中では反省点もあって、もう一回チャレンジしたい気持ちです。

photo CoeFontの収録台本(収録ページより)

―― ぶっ続けで2時間ですよね! 収録時間が2時間になる現場はあると思いますが、2時間しゃべり通しの現場は珍しいのでは?

森川 昔は学術的・専門的なビデオの収録で何日もかけることがありましたが、今はあまりないですね。

 長時間の収録では体力よりも集中力が大変でした。喉は発声の練習も訓練もしているし、毎日声を出す仕事をしているので大丈夫ですが、集中力はどうしても長く持たないので、そこの部分が結構疲れました。

 一定の質のデータを集めるという意図からすると、常に一定の音量やトーン、テンポを守らないと行けないので、ある程度訓練している人は楽にできるかもしれないですが、初めてやる人からすると意外に大変だと感じると思いますね。

―― 2時間同じ声を出し続けるのは特殊技能ですよね。それがプロの力なんですね。

       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.