Apple opracowuje skalowalne LLM do przetwarzania długich filmów

Firma Apple wprowadziła SlowFast-LLaVA-1.5, nową rodzinę wielkojęzycznych modeli wideo (Video-LLM), zaprojektowanych z myślą o wydajnym zrozumieniu długich formatów wideo. W swoim artykule badawczym Apple wyjaśnia, że ​​większość istniejących dostawców LLM zajmujących się wideo boryka się z wysokimi kosztami obliczeniowymi i nadmiernym wykorzystaniem tokenów podczas analizowania rozszerzonej treści wideo, co ogranicza ich zdolność do skalowania. SlowFast-LLaVA-1.5 rozwiązuje ten problem, wprowadzając wydajną strukturę tokenów, która zmniejsza liczbę tokenów potrzebnych do reprezentowania wideo przy jednoczesnym zachowaniu dokładności.

Wydajność tokenów ma kluczowe znaczenie, ponieważ każda klatka w filmie musi zostać przekonwertowana na tokeny, zanim LLM będzie mógł ją przetworzyć. W przypadku długich filmów liczba tokenów szybko staje się niemożliwa do zarządzania, co zwiększa koszty i spowalnia wydajność. Podejście Apple kompresuje dane wideo, dzięki czemu wykorzystuje się mniej tokenów bez utraty ważnego kontekstu. Łącząc to z architekturą dwuścieżkową, w której „powolna” ścieżka oddaje długoterminowe wzorce, a „szybka” ścieżka koncentruje się na szczegółach krótkoterminowych, model może zrównoważyć zrozumienie i wydajność. Pozwala to śledzić zarówno nadrzędne wątki fabularne, jak i szczegółowe działania w dłuższych sekwencjach.

System jest również wysoce skalowalny, co oznacza, że ​​można go rozbudować, aby obsługiwać znacznie dłuższe filmy i większe zbiory danych bez przytłaczania zasobów obliczeniowych. Tradycyjne modele stają się niepraktyczne wraz ze wzrostem długości wejściowej, ale konstrukcja Apple zapewnia, że ​​skalowanie od krótkich klipów do wielogodzinnych nagrań pozostaje wykonalne. Dzięki temu SlowFast-LLaVA-1.5 nadaje się do zadań takich jak odpowiadanie na pytania wideo, wnioskowanie czasowe, podsumowywanie i wyszukiwanie treści w długich archiwach wideo.

W testach porównawczych Apple podaje, że model osiąga dobre wyniki w zestawach danych, takich jak Video-MME i LongVideoBench, wykazując zarówno lepszą wydajność, jak i zrozumienie w porównaniu z wcześniejszymi podejściami. W badaniu wprowadzono także wiele rozmiarów modeli, w tym wersje parametrów 1,5B, 7B i 13B, które są dostrojone zgodnie z instrukcjami tak, aby odpowiadały podpowiedziom języka naturalnego. Umożliwia to systemowi generowanie szczegółowych odpowiedzi na temat złożonych treści wideo, dzięki czemu można go wykorzystać do analizy filmów edukacyjnych, podsumowań spotkań i narzędzi ułatwień dostępu, które tworzą podpisy lub transkrypcje z możliwością przeszukiwania.

Przeczytaj więcej:TikTok umożliwia przesyłanie długich treści w formie 60-minutowych filmów

Apple podkreśla, że ​​w wydajnym tokenie i skalowalnym projekcie chodzi nie tylko o nowatorstwo badawcze, ale o praktyczność. Obniżając wymagania obliczeniowe i zwiększając możliwości, model toruje drogę do integracji długoterminowej wiedzy wideo z produktami ze świata rzeczywistego. Ponieważ w rozrywce, edukacji i komunikacji zawodowej nadal dominuje wideo, zakrojona na szeroką skalę platforma wideo LLM firmy Apple stanowi znaczący krok w kierunku uczynienia zaawansowanej multimodalnej sztucznej inteligencji zarówno użyteczną, jak i dostępną.

Sprawdź cały dokumentTutaj.