Thesis Proposals

BSc and MSc thesis opportunities in Computer Vision and Machine Learning.

Open Proposals

Action Verification from Procedural Video

La verifica delle azioni in video procedurali acquisiti da dispositivi indossabili è un compito cruciale per molte applicazioni, come l’assistenza in tempo reale, la formazione e il monitoraggio della conformità. Essere in grado di confermare se un utente ha eseguito correttamente una sequenza di azioni può migliorare significativamente l’efficienza e la sicurezza in contesti complessi. L’obiettivo della tesi è sviluppare algoritmi capaci di verificare le azioni effettuati dall’utente da video procedurale acquisito da dispositivi indossabili.

Few-Shot Action Recognition from Wearable Devices

Il riconoscimento di azioni da dispositivi indossabili è un campo di ricerca in rapida crescita, con applicazioni che vanno dal monitoraggio della salute all’interazione uomo-computer. Tuttavia, l’acquisizione di grandi quantità di dati annotati per l’addestramento di modelli robusti può essere costosa e dispendiosa in termini di tempo. In questo contesto, l’apprendimento con pochi esempi (few-shot learning) emerge come una soluzione promettente per sviluppare modelli capaci di generalizzare da un numero limitato di campioni.

Action anticipation da video mediante rappresentazioni a grafo e Large Language Models

Il problema della egocentric action anticipation consiste nel predire le prossime azioni da un video acquisito mediante dispositivi indossabili. I large language models sono stati recentemente utilizzati con successo per la predizione di azioni future, ma la loro capacità di allucinazione ne limita le performance in diversi casi. I grafi procedurali sono stati recentemente utilizzati come un modo di condificare la conoscenza di una procedura da video. Altri lavori hanno esplorato metodologie per integrare le informazioni fornite dai grafi all’interno di modelli di linguaggio.

Detection di errori da video mediante rappresentazioni a grafo e Progress-Aware Online Action Prediction

Individuare gli errori commessi da un utente in attività di tipo procedurali da video acquisiti mediante dispositivi indossabili ha diverse applicazioni quale ad esempio quella di fornire assistenza all’utente mediante realtà aumentata. Tra i vari lavori che hanno affrontato questo problema, alcuni hanno recentemente esplorato la possibilità di utilizzare delle strutture a grafo estratte dalle annotazioni di ground truth dei video. Mentra questi sistemi funzionano bene quando testati su sequenze di azioni di ground truth, le loro performance sono limitate quando le azioni vengono predette da video per via della inerente incertezza di tali predizioni.

Egocentric Action Anticipation con Architetture JEPA

Il problema della egocentric action anticipation consiste nel predire la prossima azione da un video acquisito mediante dispositivi indossabili. I modelli attuali di action anticipation non gestiscono esplicitamente la inerente incertezza delle predizioni del futuro, trattando il problema di egocentric action anticipation come un problema di classificazione deterministico. L’architettura JEPA è stata recentemente ipotizzata come un paradigma di learning capace di gestire queste tipo di ambiguità utilizzando modelli di minimizzazione dell’energia.

Egocentric Action Anticipation con Architetture Mamba

Il problema della egocentric action anticipation consiste nel predire la prossima azione da un video acquisito mediante dispositivi indossabili. Gli approcci più recenti dello stato dell’arte di egocentric action anticipation hanno affrontato questo problema mediante l’uso di reti ricorrenti dapprima e Transformer successivamente. Questi modelli hanno però capacità limitate di gestire sequenze molto lunghe. Gli state space models, recententemente proposti, e i modelli di tipo Mamba, hanno dimostrato di essere in grado di gestire lunghe sequenze in maniera efficiente in fase di runtime.

Procedure planning da video mediante rappresentazioni a grafo e Large Language Models

Il problema del planning delle procedure consiste nel determinare la corretta sequenze di azioni che permettano di portare dallo stato corrente (generalmente indicato come una immagine - es. “l’immagine del pane sul tavolo”) a uno stato finale (indicato anch’esso come immagine - es. “bruschette in un piatto”). I large language models sono stati recentemente utilizzati con successo per la predizione di piani procedurali. I grafi procedurali sono stati recentemente utilizzati come un modo di condificare la conoscenza di una procedura da video.

Thesis Proposals

Open Proposals

Action Verification from Procedural Video

Few-Shot Action Recognition from Wearable Devices

Action anticipation da video mediante rappresentazioni a grafo e Large Language Models

Detection di errori da video mediante rappresentazioni a grafo e Progress-Aware Online Action Prediction

Egocentric Action Anticipation con Architetture JEPA

Egocentric Action Anticipation con Architetture Mamba

Procedure planning da video mediante rappresentazioni a grafo e Large Language Models

Action Anticipation with Vision-Language Models

Hand-Object Interaction Detection in Egocentric Video

Procedural Activity Understanding with Graph Networks

Wearable AR Assistant for Task Guidance

How to Apply