Action anticipation da video mediante rappresentazioni a grafo e Large Language Models

Action anticipation da video mediante rappresentazioni a grafo e Large Language Models

Il problema della egocentric action anticipation consiste nel predire le prossime azioni da un video acquisito mediante dispositivi indossabili.

I large language models sono stati recentemente utilizzati con successo per la predizione di azioni future, ma la loro capacitΓ  di allucinazione ne limita le performance in diversi casi. I grafi procedurali sono stati recentemente utilizzati come un modo di condificare la conoscenza di una procedura da video. Altri lavori hanno esplorato metodologie per integrare le informazioni fornite dai grafi all’interno di modelli di linguaggio.

Lo scopo della tesi Γ¨ quello di integrare la conoscenza fornita da un grafo all’interno di un modello LLM per la predizione di azioni future.

Letture di riferimento: