Procedure planning da video mediante rappresentazioni a grafo e Large Language Models

Procedure planning da video mediante rappresentazioni a grafo e Large Language Models

Il problema del planning delle procedure consiste nel determinare la corretta sequenze di azioni che permettano di portare dallo stato corrente (generalmente indicato come una immagine - es. “l’immagine del pane sul tavolo”) a uno stato finale (indicato anch’esso come immagine - es. “bruschette in un piatto”).

I large language models sono stati recentemente utilizzati con successo per la predizione di piani procedurali. I grafi procedurali sono stati recentemente utilizzati come un modo di condificare la conoscenza di una procedura da video. Altri lavori hanno esplorato metodologie per integrare le informazioni fornite dai grafi all’interno di modelli di linguaggio.

Lo scopo della tesi รจ quello di integrare la conoscenza fornita da un grafo all’interno di un modello LLM per effettuare procedure planning.

Letture di riferimento: