Porównanie klasycznych i wizualno-językowych metod wykrywania wybranych akcji w sekwencjach obrazów

Zgłaszający: dr inż. Witold Czajewski
  • Status dostępności:Wolny
  • Słowa kluczowe:analiza sekwencji obrazów, głębokie sieci neuronowe, duże modele językowe
  • Opis:

    Celem projektu jest porównanie skuteczności klasycznych metod wykrywania akcji w sekwencjach obrazów z nowoczesnymi modelami wizualno-językowymi (VLM). Należy wybrać zestaw akcji do rozpoznawania (np. wypadki, bieganie, interakcje ludzi lub inne zdarzenia możliwe do zidentyfikowania na podstawie kontekstu czasowego). W ramach części klasycznej należy zaimplementować lub wykorzystać klasyczne metody rozpoznawania czynności, a następnie porównać z nowoczesnymi modelami multimodalnymi obsługującymi zapytania tekstowe do analizy wideo (np. X-CLIP, VideoCLIP, TimeSformer z dekodowaniem tekstowym). Dla obu podejść należy przeprowadzić testy na przygotowanym zbiorze sekwencji wideo z etykietami oraz zastosować metryki oceny jakości klasyfikacji. Na końcu projektu należy przedstawić analizę porównawczą działania obu podejść oraz wskazać zalety i ograniczenia każdego z nich w kontekście efektywności, możliwości rozszerzania i dostępności danych.

  • Typ pracy: inżynierski magisterski projekt indywidualny projekt zespołowy projekt przejściowy projekt zespołowy - IK godziny nieregularne
  • Kierunek: Automatyka i Robotyka Electrical Engineering Elektrotechnika Informatyka Elektromobilność
  • Uwagi:posiadanie karty graficznej Nvidii będzie atutem
Powrót