Przesłanie na przyszłość: Janus to prosty, ujednolicony i rozszerzalny multimodalny model rozumienia i generowania, który oddziela multimodalne rozumienie i generowane kodowanie wizualne, łagodząc potencjalne konflikty między tymi dwoma zadaniami. W przyszłości można go rozszerzyć o dodatkowe modalności wejściowe. Janus-Pro opiera się na tym fundamencie, optymalizując strategię szkolenia (w tym zwiększając liczbę etapów szkolenia, dostosowując proporcje danych itp.), dodając więcej danych (w tym wykorzystanie danych syntetycznych itp.) i zwiększając rozmiar modelu (do 7 miliardów parametrów), co prowadzi do postępów w zakresie multimodalnego rozumienia modelu i możliwości przestrzegania instrukcji tekst-obraz.
Janus-Pro jest zaawansowaną wersją poprzedniej pracy Janus, w szczególności obejmującą (1) zoptymalizowaną strategię treningową, (2) rozszerzone dane treningowe i (3) większe rozmiary modeli. Dzięki tym ulepszeniom Janus-Pro dokonuje znaczących postępów w zakresie multimodalnego rozumienia i możliwości przestrzegania instrukcji tekst-obraz, jednocześnie zwiększając stabilność generowania tekstu-obrazu. Zanim rozpakujemy Janus-Pro, przejrzyjmy Janusa.
Przegląd Janusa
Poprzednik Janus jest autoregresyjną strukturą dla ujednoliconego multimodalnego rozumienia i generowania, która służy do oddzielenia kodowania wizualnego dla ujednoliconego multimodalnego rozumienia i generowania. W przypadku rozumienia multimodalnego, projekt zazwyczaj opiera się na LLaVA, wykorzystując kodery wizualne jako pomost umożliwiający dużym modelom językowym rozumienie obrazów. W przypadku generowania jest on zwykle oparty na modelach dyfuzyjnych, a niektóre opierają się na metodach autoregresyjnych. Niektóre podejścia próbują użyć pojedynczego transformatora, aby spróbować ujednolicić multimodalne zadania rozumienia i generowania, które zazwyczaj wykorzystują pojedynczy koder wizualny do przetwarzania danych wejściowych obu zadań.
Istnieją jednak różnice w reprezentacjach wymaganych do multimodalnych zadań rozumienia i generowania. W zadaniu rozumienia multimodalnego koder wizualny ma na celu wyodrębnienie wysokopoziomowych informacji semantycznych (np. kategorii obiektów lub atrybutów wizualnych), a wynik obejmuje nie tylko wyodrębnianie informacji z obrazu, ale także złożone rozumowanie semantyczne, przy czym koder koncentruje się głównie na wysokowymiarowych reprezentacjach semantycznych. Zadanie generowania dotyczy głównie generowania lokalnych szczegółów i utrzymywania globalnej spójności obrazu, co wymaga niskowymiarowych zakodowanych reprezentacji struktur przestrzennych i szczegółów tekstury. Ujednolicenie reprezentacji obu zadań w tej samej przestrzeni może prowadzić do konfliktów.
Janus zawiera 2 niezależne ścieżki kodowania wizualnego dla multimodalnego rozumienia i generowania, i przynosi dwie korzyści: 1) łagodzi konflikty wynikające z różnych wymagań dotyczących ziarnistości multimodalnego rozumienia i generowania oraz 2) jest elastyczny i skalowalny, dzięki czemu zarówno zadania rozumienia, jak i generowania mogą być kodowane przy użyciu najnowocześniejszych technik kodowania specyficznych dla ich dziedzin, aw przyszłości mogą być zasilane chmurami punktów, sygnałami EEG lub danymi audio i przetwarzane przy użyciu ujednoliconego W przyszłości chmury punktów, sygnały EEG lub dane audio mogą być wprowadzane i przetwarzane za pomocą ujednoliconego transformatora.
W celu zrozumienia tekstu, jest on konwertowany na dyskretne identyfikatory za pomocą wbudowanego w LLM Tokenizera;
W celu zrozumienia multimodalnego, wysokowymiarowe cechy semantyczne na obrazach są wyodrębniane za pomocą koderów SigLIP (uwaga autora: Cosmos wykorzystuje również kodery SigLIP w sekcji Guardrails), a wyodrębnione cechy są mapowane do przestrzeni cech tekstowych LLM za pomocą Adaptora (2-warstwowego MLP);
Długi bok został dostosowany do 384 pikseli, a krótki bok został wypełniony do 384 pikseli przy użyciu RGB(127, 127, 127);
W celu wygenerowania wizualnego obraz został przekonwertowany na dyskretne identyfikatory za pomocą tokenizera VQ, a każdy identyfikator został zmapowany do przestrzeni cech tekstowych LLM za pomocą Adaptora (2-warstwowego MLP);
Krótkie krawędzie zostały zmniejszone do 384 pikseli, a długie krawędzie zostały przycięte do 384 pikseli;
Ogólny trening został przeprowadzony przy użyciu 16 węzłów, z których każdy zawierał 8 procesorów graficznych Nvidia A100;
Zarówno w przypadku zadań generowania wizualnego, jak i rozumienia multimodalnego, sekwencje cech obrazu i sekwencje cech tekstu są połączone razem jako dane wejściowe do LLM (w tekście użyto DeepSeek-LLM 1.3B);
Wbudowana głowica predykcyjna LLM jest wykorzystywana do przewidywania tekstu zarówno w zadaniach rozumienia czystego tekstu, jak i rozumienia multimodalnego, podczas gdy losowo zainicjowana głowica predykcyjna jest używana do przewidywania obrazu w zadaniu generowania wizualnego. Cały model jest zgodny ze strukturą autoregresyjną bez potrzeby stosowania specjalnie zaprojektowanych masek uwagi.
Szkolenie Janus jest podzielony na 3 fazy:
Faza 1
Adapter pociągowy i głowica obrazowa tworzenie połączeń między elementami językowymi i wizualnymi w przestrzeni osadzania, umożliwiając LLM zrozumienie podmiotów na obrazie i uzyskanie wstępnych możliwości generowania wizualnego;
W celu zrozumienia multimodalnego użyj 1,25 miliona sparowanych danych podpisów obraz-tekst z SHareGPT4V w formacie: ;
Do generowania wizualnego, przy użyciu 1,2 miliona próbek z ImageNet1k w formacie: ;
Faza 2
Zunifikowane szkolenie wstępneWykorzystanie multimodalnego korpusu do ujednoliconego treningu wstępnego w celu nauki multimodalnego rozumienia i generowania. W tej fazie wykorzystywane są zwykłe dane tekstowe, multimodalne dane rozumienia i dane generowania wizualnego. Prosty trening generowania wizualnego przy użyciu ImageNet-1k, a następnie wykorzystanie ogólnych danych tekst-obraz w celu poprawy generowania wizualnego w otwartej domenie modelu;
Zwykłe dane tekstowe: Wstępnie wytrenowany korpus DeepSeek-LLM;
Przeplatane dane obraz-tekst: WikiHow i WIT;
Dane podpisów obrazów: Obrazy z wielu źródeł i ponowne podpisanie niektórych obrazów przy użyciu modeli multimodalnych o otwartym kodzie źródłowym, z danymi sformatowanymi jako pary Q&A, np. Describe the image in detail.
Dane tabelaryczne i graficzne: odpowiednie dane tabelaryczne i graficzne z DeepSeek-VL w formacie ;
Dane generowane wizualnie: pary obraz-napis z wielu zbiorów danych i 2 miliony danych wewnętrznych;
Podczas treningu tylko pierwsze zdanie podpisu jest losowo używane z prawdopodobieństwem 25%;
Próbki ImageNet pojawiają się tylko w początkowych 120 tysiącach kroków szkoleniowych, a obrazy z innych zestawów danych pojawiają się w kolejnych 60 tysiącach kroków;
Faza 3
Nadzorowane dostrajaniegdzie wstępnie wytrenowane modele są dostrajane przy użyciu danych dostrajania instrukcji w celu zwiększenia ich zdolności do wykonywania instrukcji i prowadzenia dialogu. Dostrajanie wszystkich parametrów z wyjątkiem kodera generującego. Maskowanie systemu i wskazówek użytkownika podczas nadzorowania odpowiedzi. Aby zapewnić, że Janus ma biegłość zarówno w multimodalnym rozumieniu, jak i generowaniu, modele nie są dostrajane osobno dla konkretnych zadań. Zamiast tego używamy mieszanki danych dialogowych tylko tekstowych, danych multimodalnego rozumienia i danych generowania wizualnego, aby zapewnić wszechstronność w różnych scenariuszach;
Rozumienie tekstu: wykorzystuje dane z określonych źródeł;
Rozumienie multimodalne: wykorzystywanie danych z wielu źródeł do dostosowywania instrukcji;
Generowanie wizualne: przy użyciu podzbioru par obraz-tekst z niektórych zbiorów danych fazy II, a także 4 milionów danych wewnętrznych;
Format danych to: User: \n Assistant: ;
Cele szkolenia
Janus jest modelem autoregresyjnym wytrenowanym przy użyciu funkcji utraty entropii krzyżowej, dla zadań rozumienia zwykłego tekstu i rozumienia multimodalnego strata jest obliczana na sekwencji tekstu. W przypadku zadań generowania wizualnego strata jest obliczana tylko dla sekwencji obrazów. Aby zachować prostotę projektu, do różnych zadań nie są przypisywane różne wagi strat.
Uzasadnienie
Korzystając z kolejnej metody przewidywania elementów leksykalnych, w przypadku rozumienia zwykłego tekstu i rozumienia multimodalnego, elementy leksykalne są próbkowane sekwencyjnie z rozkładu przewidywania. Do generowania obrazów używany jest bootstrap bez klasyfikatora.
Możliwe rozszerzenia
W przypadku rozumienia multimodalnego można 1) wybrać silniejszy koder wizualny i 2) zastosować dynamiczne techniki wysokiej rozdzielczości;
W przypadku generowania wizji można wybrać 1) bardziej precyzyjne kodery, 2) wykorzystanie funkcji strat zaprojektowanych specjalnie do generowania wizji oraz 3) połączenie uwagi przyczynowej i metod równoległych;
Więcej modalności, z możliwością integracji chmur punktów 3D, haptyki, EEG i innych danych wejściowych dla modalności utraty;
Aktualizacja Janus-Pro
Z ograniczonymi danymi treningowymi i stosunkowo małą pojemnością modelu (1B), Janus jest wadliwy w niektórych aspektach, takich jak słaba reprezentacja generowania obrazu pod krótkimi wskazówkami i niespójna jakość generowania tekstu na obraz. Architektura Janus-Pro jest taka sama jak Janus, co można zobaczyć na poniższym rysunku:
Główne ulepszenia
Strategia szkoleniowa
Etap 1: Zwiększenie liczby kroków szkoleniowych i pełne szkolenie na ImageNet;
Etap 2: Nie używaj już ImageNet, bezpośrednio używaj zwykłych danych tekstowo-obrazowych do szkolenia;
Etap 3: Modyfikacja proporcji zestawu danych w procesie dostrajania poprzez zmianę proporcji danych multimodalnych, danych tekstowych i danych tekstowo-obrazowych z 7:3:10 na 5:1:4;
Skala danych
Zrozumienie multimodalne
Etap 2: Dodanie 90 milionów próbek, w tym YFCC do podpisywania obrazów i Doc-matrix do rozumienia dokumentów tabel i wykresów;
Etap 3: Dodanie dodatkowych zestawów danych DeepSeek-VL2, takich jak MEME understanding;
Generowanie wizualne: dane ze świata rzeczywistego mogą mieć niską jakość, co skutkuje niestabilnym generowaniem tekstu na obraz i słabą estetyką, Janus-Pro wykorzystuje 72 miliony próbek syntetycznych danych estetycznych, z jednolitą fazą wstępnego szkolenia (etap 2) w stosunku 1: 1 danych rzeczywistych do danych syntetycznych;
Skala modelu
Skalowanie parametrów modelu do skali 7 miliardów parametrów;
Szczegóły eksperymentu
W porównaniu do Janusa, szczegóły eksperymentów Janus-Pro są w zasadzie takie same. Natomiast model o większych parametrach wykorzystywał więcej węzłów klastra (od 16 do 32).
Hiperparametry treningowe Janus-Pro
Niewystarczające
W przypadku rozumienia multimodalnego rozdzielczość wejściowa jest ograniczona do 384×384, co wpływa na wydajność drobnoziarnistych zadań wizualnych. W przypadku generowania tekstu na obraz niska rozdzielczość skutkuje brakiem szczegółów w generowanych wynikach.