Thesis Proposals

Sono disponibile per la supervisione di tesi. Si considerino le seguenti indicazioni di carattere logistico:

Se interessati a svolgere un percorso di tesi, è ideale contattare il docente circa 6 mesi prima della data di laurea prevista e idealmente dopo aver seguito una parte di uno dei corsi insegati;
La tesi verte generalmente su tematiche affini a quelle dei corsi insegnati e delle tematiche di ricerca trattate;
Gli studenti possono proporre un argomento di tesi di loro interesse (ma coerente con quanto specificato sopra) al docente.

Le seguenti proposte possono costituire delle tesi da affrontare insieme dal docente o degli spunti per la ricerca di un tema di tesi di interesse per lo studente e il docente.

Proposte di Tesi Disponibili

Tesi Magistrale

Nome Tesi	Breve Descrizione
Comprensione Procedurale di Video tramite MLLM, Strutture a Grafo e Structured Decoding	Sviluppo di un sistema per la comprensione di video procedurali e il planning mediante strutture a grafi che codificano le azioni, Multimodal Large Language Models e tecniche di constrained decoding.
Retrieval Visivo per Memoria Episodica Online tramite Query	Creazione di una pipeline per l’elaborazione di flussi video in streaming volta a funzionare come “protesi cognitiva”. Il sistema dovrà indicizzare l’esperienza visiva dell’utente e rispondere a query specifiche.
Segmentazione Temporale Online di Azioni da Video in Regime Few-Shot	Progettazione di architetture capaci di segmentare e classificare azioni in flussi video continui in tempo reale, minimizzando il bisogno di dati annotati. Il sistema dovrà generalizzare su nuove classi di interazioni uomo-oggetto a partire da pochissimi esempi.
Segmentazione Temporale di Azioni da Video tramite Foundation Models	Adattamento e ottimizzazione di modelli fondazionali pre-addestrati su larga scala per il task di segmentazione temporale. La tesi esplorerà come estrarre feature spazio-temporali robuste e impiegare Large Language Models per comprendere temporalmente sequenze di azioni prolungate in scenari non vincolati.
Modelli Visivo-Linguistici (VLA) per l’Anticipazione delle Azioni	Sviluppo di architetture che fondono rappresentazioni visive e capacità di ragionamento linguistico per prevedere le interazioni umane future. Il modello dovrà inferire l’intenzione dell’utente a partire dall’osservazione corrente per abilitare un supporto assistivo proattivo.
Verifica Automatica delle Azioni da Video Procedurali	Sviluppo di modelli di computer vision in grado di analizzare flussi video per validare la corretta esecuzione di una procedura. Il sistema dovrà riconoscere errori, anomalie o deviazioni rispetto a una procedura standard, fornendo la base per un feedback assistivo durante attività complesse.
State Tracking Procedurale Online mediante Rappresentazioni a Grafo	Progettazione di un algoritmo capace di allineare in streaming un video egocentrico a un grafo procedurale predefinito. L’obiettivo è tracciare lo stato di avanzamento dell’utente in tempo reale, permettendo al sistema di sapere con precisione a che punto del task si trova l’operatore.
Procedure Understanding e Clustering Video tramite Strutture a Grafo	Analisi esplorativa e modellazione per raggruppare automaticamente segmenti video non supervisionati. Sfruttando l’analisi dei dati e le reti neurali su grafi, la tesi mira a scoprire pattern comuni di interazione e a dedurre la struttura latente di task complessi da ampie collezioni video.
Anticipazione delle Azioni tramite LLM, Grafi e Reinforcement Learning	Creazione di un agente AI ibrido che integra conoscenza procedurale strutturata (grafi), ragionamento dei Large Language Models e ottimizzazione decisionale (RL). L’obiettivo è anticipare i bisogni dell’utente e pianificare interventi proattivi che massimizzino l’utilità riducendo il carico cognitivo.
Anticipazione delle Azioni con Architetture State-Space (MAMBA)	Esplorazione dei modelli State-Space (come MAMBA) come alternativa altamente efficiente ai Transformer per l’elaborazione di sequenze temporali lunghe. La tesi ne valuterà le performance nell’anticipare interazioni future, con un focus specifico sull’ottimizzazione per dispositivi edge a risorse limitate.