Analiza skuteczności modeli wizualno-językowych w zadaniu wyszukiwania obiektów na podstawie zapytań tekstowych

Zgłaszający: dr inż. Witold Czajewski
  • Status dostępności:Wolny
  • Słowa kluczowe:duże modele językowe, głębokie sieci neuronowe
  • Opis:

    Celem projektu jest analiza skuteczności wybranych modeli wizualno-językowych (VLM) w zadaniu lokalizowania obiektów w obrazach na podstawie zapytań sformułowanych w języku naturalnym (np. znajdź mężczyznę w czerwonym kapeluszu). Należy wybrać modele umożliwiające tego typu wyszukiwanie (np. GLIP, Florence-2, CLIP) oraz przygotować zestaw obrazów i odpowiadających im zapytań tekstowych opisujących konkretne obiekty. Modele należy przetestować w zakresie wskazywania obszarów obrazu odpowiadających opisowi, a następnie przeprowadzić ewaluację wyników z wykorzystaniem metryk takich jak średnia precyzja (mAP) i nakładanie predykcji z prawdą wzorcową (IoU). Na końcu należy przedstawić porównanie skuteczności modeli oraz wnioski dotyczące ich praktycznej użyteczności w zastosowaniach wyszukiwania obiektów opartych na języku.

  • Typ pracy: inżynierski magisterski projekt indywidualny projekt przejściowy projekt zespołowy - IK projekt zespołowy - IO
  • Kierunek: Automatyka i Robotyka Electrical Engineering Elektrotechnika Informatyka Elektromobilność
  • Uwagi:posiadanie karty graficznej Nvidii będzie atutem
Powrót