ITmedia NEWS > AI+ >

ビデオ会議中のよそ見が可能に? 顔が常に前を向いているように見せる技術、NVIDIAが開発Innovative Tech

» 2021年10月05日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 米NVIDIAの研究チームが開発した「One-Shot Free-View Neural Talking-Head Synthesis for Video Conferencing」は、ビデオ会議中に話している人の頭部を常に正面に向ける、深層学習を用いた技術だ。視線や頭部をあちらこちらに動かしても、常に正面を向いて相手とアイコンタクトを取って話しているかのように見せられる。

photo 頭部をいろんな方向に動かしても常に正面に向く
photo 正面を向いていない顔(左)本モデルで合成された正面を向く顔(右)

 動画内の頭部を制御する手法は多数開発されてきたが、頭部の3Dモデルを必要としたり、2Dでも固定視点の制限があったりと、ビデオ会議への使用には適していなかった。

 今回は頭部の3Dモデルを使わず、話し手の頭部ポーズと表情のみの映像をレンダリングする深層学習フレームワークでこの課題に挑戦する。これまでの2Dベースの手法ではできなかった固定視点の制限を解消し、局所的な自由視点合成を実現する。

 今回の手法は、頭部を正面に向けるだけでなく、頭部を上下左右に回転させる、他の人の動きの模倣も可能だ。

 キーポイント変換のみを送信するため既存の方法よりも優れた圧縮率を実現でき、H.264と性能や転送量を比べたところ、H.264と同じ視覚的品質を達成しながら帯域を10分の1まで削減しており、ビデオ会議での使用に適している。

 Webブラウザ上で動作するオンラインデモも公開しており、そこでは独自の顔画像をアップロード後にパラメーターを制御しさまざまな角度に頭部を向けることができる。

Copyright © ITmedia, Inc. All Rights Reserved.