Robust gaze estimation is a challenging task, even for deep CNNs, due to the non-availability of large-scale labeled data. Moreover, gaze annotation is a time-consuming process and requires specialized hardware setups. We propose MTGLS: a Multi-Task Gaze estimation framework with Limited Supervision, which leverages abundantly available non-annotated facial image data. MTGLS distills knowledge from off-the-shelf facial image analysis models, and learns strong feature representations of human eyes, guided by three complementary auxiliary signals: (a) the line of sight of the pupil (i.e. pseudo-gaze) defined by the localized facial landmarks, (b) the head-pose given by Euler angles, and (c) the orientation of the eye patch (left/right eye). To overcome inherent noise in the supervisory signals, MTGLS further incorporates a noise distribution modelling approach. Our experimental results show that MTGLS learns highly generalized representations which consistently perform well on a range of datasets. Our proposed framework outperforms the unsupervised state-of-the-art on CAVE (by ∼ 6*.43%) and even supervised state-of-the-art methods on Gaze360 (by* ∼ 6*.59%) datasets.*
ディープCNNを用いても、大規模なラベル付きデータが入手できないため、堅牢な視線推定は困難な課題となっています。さらに、視線のアノテーションは時間のかかるプロセスで、専用のハードウェアセットアップが必要です。私たちは、豊富に入手可能な非アノテーション顔画像データを活用する、限定的な教師あり学習による視線推定のマルチタスクフレームワークMTGLSを提案します。MTGLSは既存の顔画像分析モデルから知識を蒸留し、3つの補完的な補助信号によって導かれる人間の目の強力な特徴表現を学習します:(a) 局所的な顔のランドマークによって定義される瞳孔の視線方向(擬似視線)、(b) オイラー角で表される頭部姿勢、(c) 目パッチの向き(左目/右目)。教師信号に内在するノイズに対処するため、MTGLSはノイズ分布モデリングアプローチを組み込んでいます。実験結果は、MTGLSが様々なデータセットで一貫して良好な性能を示す高度に一般化された表現を学習することを示しています。提案フレームワークは、CAVEデータセットにおいて教師なし学習の最先端手法を∼6*.43%上回り、Gaze360データセットでは教師あり学習の最先端手法さえも∼6.*59%上回る性能を達成しました。

Figure 1. Overview of the proposed Multi-Task Gaze estimation framework with Limited Supervision (MTGLS). MTGLS learns a meaningful gaze embedding space guided by different auxiliary signals from ‘in-the-wild’ facial images curated from the web.
限定的な教師あり学習による視線推定のマルチタスクフレームワーク(MTGLS)の概要。MTGLSは、ウェブから収集された「自然な」顔画像から得られる異なる補助信号によって導かれる、意味のある視線埋め込み空間を学習します。

Figure 2. An overview of our proposed MTGLS framework. From left to right, we show (a) Multi-task Learning via Pseudo Labels: MTGLS learns gaze representations with limited supervision, by distilling knowledge from off-the-shelf deep models developed for facial image modelling. Here, MTGLS utilizes LOS, head-pose and eye orientation as auxiliary signals (Refer Sec. 3.1.1); (b) Knowledge Distillation and Representation Learning: Our gaze estimation framework consists of the backbone network and noisy label learning module (Refer Sec. 3.1.2). During the representation learning process, MTGLS considers the impact of inherent noise in the assigned soft label space; (c) Inference: For downstream adaptation, we use Linear Probing (LP), Fine-Tuning (FT) to show the generalization and transferability of the learnt features across different tasks.
提案するMTGLSフレームワークの概要です。左から右に、以下を示しています:*(a) 疑似ラベルによるマルチタスク学習:MTGLSは、顔画像モデリング用に開発された既存のディープモデルから知識を蒸留することで、限定的な教師あり学習による視線表現を学習します。ここでMTGLSは、補助信号としてLOS(視線方向)、頭部姿勢、目の向きを利用します(3.1.1節参照);(b) 知識蒸留と表現学習:私たちの視線推定フレームワークは、バックボーンネットワークとノイズラベル学習モジュールで構成されています(3.1.2節参照)。表現学習プロセスにおいて、MTGLSは割り当てられたソフトラベル空間に内在するノイズの影響を考慮します;(c) 推論:*下流タスクへの適応のため、学習された特徴量の一般化性と転移可能性を示すために線形プロービング(LP)、ファインチューニング(FT)を使用します。
パラグラフメモ
1-1. 目の動きは非言語的行動分析における重要な手がかりである。ゲームのプラットフォーム、生徒のエンゲージメント、運転手の注意を知ることに応用されている。最近では視線追跡、瞳孔検知、視線推定など幅広い視線関連タスクが行われている。
最近の視線推定のSotaはCNNを使っているが一般的にアノテーションしたデータやperson-specificなキャリブレーションが必要だが、視線推定のアノテーションデータを正確に行うには時間やコストがかかる。
1-2. こういった視線推定のアノテーション課題解決に、弱 / 半 / 自己教師学習が有望だと考えられている。表現学習のフレームワークとして著者らは、ラベルのない顔画像から(1)視線の疑似ラベル、(2)頭部姿勢、(3)左右眼のどちらかを同時に推定するマルチタスク学習を使った弱教師学習を提案した。[45,75]は何の論文?
1-3. 著者らの貢献は以下のように提案されている。