ISOD | Internetowy System Obsługi Dziekanatu

Analiza skuteczności modeli wizualno-językowych w zadaniu wyszukiwania obiektów na podstawie zapytań tekstowych

Zgłaszający: dr inż. Witold Czajewski

Status dostępności:Wolny
Słowa kluczowe:duże modele językowe, głębokie sieci neuronowe
Opis:
Celem projektu jest analiza skuteczności wybranych modeli wizualno-językowych (VLM) w zadaniu lokalizowania obiektów w obrazach na podstawie zapytań sformułowanych w języku naturalnym (np. znajdź mężczyznę w czerwonym kapeluszu). Należy wybrać modele umożliwiające tego typu wyszukiwanie (np. GLIP, Florence-2, CLIP) oraz przygotować zestaw obrazów i odpowiadających im zapytań tekstowych opisujących konkretne obiekty. Modele należy przetestować w zakresie wskazywania obszarów obrazu odpowiadających opisowi, a następnie przeprowadzić ewaluację wyników z wykorzystaniem metryk takich jak średnia precyzja (mAP) i nakładanie predykcji z prawdą wzorcową (IoU). Na końcu należy przedstawić porównanie skuteczności modeli oraz wnioski dotyczące ich praktycznej użyteczności w zastosowaniach wyszukiwania obiektów opartych na języku.
Typ pracy: inżynierski magisterski projekt indywidualny projekt przejściowy projekt zespołowy - IK projekt zespołowy - IO
Kierunek: Automatyka i Robotyka Electrical Engineering Elektrotechnika Informatyka Elektromobilność
Uwagi:posiadanie karty graficznej Nvidii będzie atutem