Porównanie klasycznych i wizualno-językowych metod wykrywania wybranych akcji w sekwencjach obrazów
- Status dostępności:Wolny
- Słowa kluczowe:analiza sekwencji obrazów, głębokie sieci neuronowe, duże modele językowe
- Opis:
Celem projektu jest porównanie skuteczności klasycznych metod wykrywania akcji w sekwencjach obrazów z nowoczesnymi modelami wizualno-językowymi (VLM). Należy wybrać zestaw akcji do rozpoznawania (np. wypadki, bieganie, interakcje ludzi lub inne zdarzenia możliwe do zidentyfikowania na podstawie kontekstu czasowego). W ramach części klasycznej należy zaimplementować lub wykorzystać klasyczne metody rozpoznawania czynności, a następnie porównać z nowoczesnymi modelami multimodalnymi obsługującymi zapytania tekstowe do analizy wideo (np. X-CLIP, VideoCLIP, TimeSformer z dekodowaniem tekstowym). Dla obu podejść należy przeprowadzić testy na przygotowanym zbiorze sekwencji wideo z etykietami oraz zastosować metryki oceny jakości klasyfikacji. Na końcu projektu należy przedstawić analizę porównawczą działania obu podejść oraz wskazać zalety i ograniczenia każdego z nich w kontekście efektywności, możliwości rozszerzania i dostępności danych.
- Typ pracy: inżynierski magisterski projekt indywidualny projekt zespołowy projekt przejściowy projekt zespołowy - IK godziny nieregularne
- Kierunek: Automatyka i Robotyka Electrical Engineering Elektrotechnika Informatyka Elektromobilność
- Uwagi:posiadanie karty graficznej Nvidii będzie atutem