Egocentric Action Anticipation con Architetture Mamba

Il problema della egocentric action anticipation consiste nel predire la prossima azione da un video acquisito mediante dispositivi indossabili.

Gli approcci più recenti dello stato dell’arte di egocentric action anticipation hanno affrontato questo problema mediante l’uso di reti ricorrenti dapprima e Transformer successivamente. Questi modelli hanno però capacità limitate di gestire sequenze molto lunghe. Gli state space models, recententemente proposti, e i modelli di tipo Mamba, hanno dimostrato di essere in grado di gestire lunghe sequenze in maniera efficiente in fase di runtime.

L’obiettivo della tesi è quello di sviluppare modelli di egocentric action anticipation facendo uso di modelli di tipo Mamba e opzionalmente di Transformer.

Letture di riferimento: