Thesis Proposals | Antonino Furnari

Nome Tesi	Breve Descrizione
Sistema di assistenza per utenti mediante dispositivi indossabili	Sviluppo di un sistema di assistenza all’utente mediante dispositivi indossabili
Comprensione Procedurale di Video tramite MLLM, Strutture a Grafo e Structured Decoding	Sviluppo di un sistema per la comprensione di video procedurali e il planning mediante strutture a grafi che codificano le azioni, Multimodal Large Language Models e tecniche di constrained decoding.
Retrieval Visivo per Memoria Episodica Online tramite Query	Creazione di una pipeline per l’elaborazione di flussi video in streaming volta a funzionare come “protesi cognitiva”. Il sistema dovrà indicizzare l’esperienza visiva dell’utente e rispondere a query specifiche.
Segmentazione Temporale Online di Azioni da Video in Regime Few-Shot	Progettazione di architetture capaci di segmentare e classificare azioni in flussi video continui in tempo reale, minimizzando il bisogno di dati annotati. Il sistema dovrà generalizzare su nuove classi di interazioni uomo-oggetto a partire da pochissimi esempi.
Segmentazione Temporale di Azioni da Video tramite Foundation Models	Adattamento e ottimizzazione di modelli fondazionali pre-addestrati su larga scala per il task di segmentazione temporale. La tesi esplorerà come estrarre feature spazio-temporali robuste e impiegare Large Language Models per comprendere temporalmente sequenze di azioni prolungate in scenari non vincolati.
Modelli Visivo-Linguistici (VLA) per l’Anticipazione delle Azioni	Sviluppo di architetture che fondono rappresentazioni visive e capacità di ragionamento linguistico per prevedere le interazioni umane future. Il modello dovrà inferire l’intenzione dell’utente a partire dall’osservazione corrente per abilitare un supporto assistivo proattivo.
Verifica Automatica delle Azioni da Video Procedurali	Sviluppo di modelli di computer vision in grado di analizzare flussi video per validare la corretta esecuzione di una procedura. Il sistema dovrà riconoscere errori, anomalie o deviazioni rispetto a una procedura standard, fornendo la base per un feedback assistivo durante attività complesse.
State Tracking Procedurale Online mediante Rappresentazioni a Grafo	Progettazione di un algoritmo capace di allineare in streaming un video egocentrico a un grafo procedurale predefinito. L’obiettivo è tracciare lo stato di avanzamento dell’utente in tempo reale, permettendo al sistema di sapere con precisione a che punto del task si trova l’operatore.
Anticipazione delle Azioni tramite LLM, Grafi e Reinforcement Learning	Creazione di un agente AI ibrido che integra conoscenza procedurale strutturata (grafi), ragionamento dei Large Language Models e ottimizzazione decisionale (RL). L’obiettivo è anticipare i bisogni dell’utente e pianificare interventi proattivi che massimizzino l’utilità riducendo il carico cognitivo.
Anticipazione delle Azioni con Architetture State-Space (MAMBA)	Esplorazione dei modelli State-Space (come MAMBA) come alternativa altamente efficiente ai Transformer per l’elaborazione di sequenze temporali lunghe. La tesi ne valuterà le performance nell’anticipare interazioni future, con un focus specifico sull’ottimizzazione per dispositivi edge a risorse limitate.