Thesis Proposals
BSc and MSc thesis opportunities in Computer Vision and Machine Learning.
| Nome Tesi | Breve Descrizione |
|---|---|
| Sistema di assistenza per utenti mediante dispositivi indossabili | Sviluppo di un sistema di assistenza all’utente mediante dispositivi indossabili |
| Comprensione Procedurale di Video tramite MLLM, Strutture a Grafo e Structured Decoding | Sviluppo di un sistema per la comprensione di video procedurali e il planning mediante strutture a grafi che codificano le azioni, Multimodal Large Language Models e tecniche di constrained decoding. |
| Retrieval Visivo per Memoria Episodica Online tramite Query | Creazione di una pipeline per l’elaborazione di flussi video in streaming volta a funzionare come “protesi cognitiva”. Il sistema dovrà indicizzare l’esperienza visiva dell’utente e rispondere a query specifiche. |
| Segmentazione Temporale Online di Azioni da Video in Regime Few-Shot | Progettazione di architetture capaci di segmentare e classificare azioni in flussi video continui in tempo reale, minimizzando il bisogno di dati annotati. Il sistema dovrà generalizzare su nuove classi di interazioni uomo-oggetto a partire da pochissimi esempi. |
| Segmentazione Temporale di Azioni da Video tramite Foundation Models | Adattamento e ottimizzazione di modelli fondazionali pre-addestrati su larga scala per il task di segmentazione temporale. La tesi esplorerà come estrarre feature spazio-temporali robuste e impiegare Large Language Models per comprendere temporalmente sequenze di azioni prolungate in scenari non vincolati. |
| Modelli Visivo-Linguistici (VLA) per l’Anticipazione delle Azioni | Sviluppo di architetture che fondono rappresentazioni visive e capacità di ragionamento linguistico per prevedere le interazioni umane future. Il modello dovrà inferire l’intenzione dell’utente a partire dall’osservazione corrente per abilitare un supporto assistivo proattivo. |
| Verifica Automatica delle Azioni da Video Procedurali | Sviluppo di modelli di computer vision in grado di analizzare flussi video per validare la corretta esecuzione di una procedura. Il sistema dovrà riconoscere errori, anomalie o deviazioni rispetto a una procedura standard, fornendo la base per un feedback assistivo durante attività complesse. |
| State Tracking Procedurale Online mediante Rappresentazioni a Grafo | Progettazione di un algoritmo capace di allineare in streaming un video egocentrico a un grafo procedurale predefinito. L’obiettivo è tracciare lo stato di avanzamento dell’utente in tempo reale, permettendo al sistema di sapere con precisione a che punto del task si trova l’operatore. |
| Anticipazione delle Azioni tramite LLM, Grafi e Reinforcement Learning | Creazione di un agente AI ibrido che integra conoscenza procedurale strutturata (grafi), ragionamento dei Large Language Models e ottimizzazione decisionale (RL). L’obiettivo è anticipare i bisogni dell’utente e pianificare interventi proattivi che massimizzino l’utilità riducendo il carico cognitivo. |
| Anticipazione delle Azioni con Architetture State-Space (MAMBA) | Esplorazione dei modelli State-Space (come MAMBA) come alternativa altamente efficiente ai Transformer per l’elaborazione di sequenze temporali lunghe. La tesi ne valuterà le performance nell’anticipare interazioni future, con un focus specifico sull’ottimizzazione per dispositivi edge a risorse limitate. |