Den nye stjerne inden for multimodal billedgenerering: Janus-4o? DelGPT-4o-Image sætter en ny standard for datasæt og tilpasser billedgenerering til GPT-4o.

DelGPT-4o-billede er et storstilet datasæt til billedgenerering af høj kvalitet, hvor alle billeder genereres ved hjælp af GPT-4os billedgenereringsfunktioner.

Dette datasæt har til formål at kombinere fordelene ved open source multimodale modeller med GPT-4os styrker inden for skabelse af visuelt indhold.

Den indeholder 45.000 tekst-til-billede- og 46.000 billede-til-tekst-eksempler, hvilket gør den til en praktisk ressource til forbedring af multimodale modeller i forbindelse med billedgenerering og redigeringsopgaver.

Janus-4o er en multimodal LLM, der er i stand til at generere tekst-til-billede og tekst+billede-til-billede. Den er baseret på Janus-Pro og finjusteret ved hjælp af ShareGPT-4o-Image-datasættet. Sammenlignet med Janus-Pro introducerer Janus-4o tekst+billede-til-billede-genereringsfunktioner og opnår betydelige forbedringer i tekst-til-billede-generering.

Indholdsfortegnelse

Oversigt over datasæt

ShareGPT-4o-Image-datasættet indeholder 91.000 GPT-4o-billedgenereringseksempler, kategoriseret som følger:

Tekst-til-billede: 45.717
Tekst plus billede til billede: 46.539

Relaterede links

Kode: github klik her

Model: Hent ShareGPT-4o-Image-modellen

Papir: klik her

Papirintroduktion

Nylige fremskridt inden for multimodale genereringsmodeller har åbnet op for realistisk, instruktionsjusteret billedgenerering. Imidlertid forbliver førende systemer som GPT-4o-Image proprietære og utilgængelige.

For at gøre disse funktioner tilgængelige for offentligheden introducerer artiklen ShareGPT-4o-Image, det første datasæt, der indeholder 45.000 tekst-til-billede og 46.000 tekst-plus-billede-til-billede eksempler, alle syntetiseret ved hjælp af GPT-4os billedgenereringsfunktioner for at forfine dets avancerede billedgenereringsevner. Ved hjælp af dette datasæt udviklede artiklen Janus-4o, en multimodal stor sprogmodel, der er i stand til tekst-til-billede og tekst-plus-billede-til-billede generering.

Janus-4o forbedrer ikke blot tekst-til-billede-genereringsfunktionerne betydeligt i forhold til sin forgænger Janus-Pro, men introducerer også tekst-plus-billede-til-billede-genereringsfunktioner. Bemærkelsesværdigt opnår den imponerende ydeevne i at generere billeder fra tekst og billeder fra bunden ved hjælp af kun 91K syntetiske prøver og trænet i 6 timer på en 8×A800 GPU-maskine.

Vi håber, at udgivelsen af ShareGPT-4o-Image og Janus-4o vil fremme åben forskning inden for fotorealistisk, instruktionsafstemt billedgenerering.

Metodeoversigt

ShareGPT-4o-Image forbedrer billedgenereringsydeevnen. Ved at finjustere Janus-Pro med ShareGPT-4o-Image genererede vi Janus-4o, som viser en betydeligt forbedret billedgenereringsydelse. Janus-4o understøtter også tekst-til-billede og billede-til-billede-generering og overgår andre benchmarks med kun 91.000 træningsprøver.

Oversigt over Janus-4o-modellen. Modellen er baseret på Janus-Pro og konstrueret ved at finjustere den på ShareGPT-4o-Image. Den inkorporerer forbedringer, der understøtter tekst-til-billede og billede-til-billede-generering. Både tekst-til-billede og tekst-til-billede-opgaver trænes i fællesskab.

Eksperimentelle resultater

Konklusioner

ShareGPT-4o-Image er det første datasæt i stor skala, der er i stand til at indfange GPT-4os avancerede billedgenereringsfunktioner inden for tekst-til-billede og tekst-til-billede-generering. Baseret på dette datasæt udviklede artiklen Janus-4o, en maskinlæringsmodel (MLLM), der er i stand til at generere billeder i høj kvalitet fra ren tekst eller billed-tekst-kombinationer.

Janus-4o opnår betydelige forbedringer i tekst-til-billede-generering og opnår yderst konkurrencedygtige resultater i tekst-til-billede-opgaver, hvilket demonstrerer den høje kvalitet og praktiske anvendelighed af ShareGPT-4o-Image.

Takket være effektiviteten af selvregressiv billedgenerering baseret på MLLM kan Janus-4o trænes på bare 6 timer på en 8×A800 GPU-maskine og opnår betydelige ydeevneforbedringer med ekstremt lave beregningskrav.

Lignende indlæg

Ikke kategoriseret

Sådan installerer og bruger du DeepSeek R1 på din lokale computer

Afjanus-ai 30. januar 202530. januar 2025

DeepSeek R1, en ny open source AI-sprogmodel udviklet af det kinesiske AI-firma DeepSeek, er populær lige nu. Nogle brugere hævder, at den kan sammenlignes med eller endda er stærkere end OpenAI's o1 med hensyn til udledningsmuligheder. I øjeblikket er DeepSeek gratis, hvilket er en god nyhed for brugerne, men det rejser også nogle spørgsmål. Hvordan...

Ikke kategoriseret

Hvor god er DeepSeeks Janus-Pro?

Afjanus-ai 4. februar 20254. februar 2025

På tærsklen til forårsfestivalen blev DeepSeek-R1-modellen udgivet. Med sin rene RL-arkitektur har den lært af CoT's store innovationer og overgår ChatGPT i matematik, kode og logisk ræsonnement. Derudover har dens open source-modelvægte, lave træningsomkostninger og billige API-priser gjort DeepSeek til et hit på hele internettet, selv...

Ikke kategoriseret

Markøren understøtter DeepSeek R1, og nye versioner opdaterer flere funktioner

Afjanus-ai 29. januar 202529. januar 2025

I øjeblikket er der for mange AI-programmeringsværktøjer: Windsurf, Trae (The Real AI Engineer), Cursor og Copilot. Blandt disse er Cursor det mest avancerede og også det dyreste. Jeg har allerede betalt for Cursor og er altid opmærksom på de nyeste funktioner for at få mest mulig værdi for pengene. Med fremkomsten af...

Ikke kategoriseret

Elon Musks Grokipedia: Fremtiden for vidensdeling og en rival til Wikipedia

Afjanus-ai 28. oktober 202528. oktober 2025

Introduktion: Revolutionering af vidensdeling Elon Musk er kendt for at udfordre status quo i adskillige brancher, fra elbiler med Tesla til rumforskning med SpaceX. Nu har han sat sig for at transformere vidensdelingens verden med sit seneste projekt, Grokipedia. Den 27. oktober lokal tid introducerede Elon Musk et nyt vidensværktøj til…

Ikke kategoriseret

Dybdegående analyse: Hvilke nyskabelser har DeepSeeks nyligt udgivne Janus-Pro?

Afjanus-ai 4. februar 20254. februar 2025

DeepSeek har opdateret sin hjemmeside. I de tidlige timer nytårsaften annoncerede DeepSeek pludselig på GitHub, at Janus-projektrummet havde åbnet kilden til Janus-Pro-modellen og den tekniske rapport. Lad os først fremhæve nogle få nøglepunkter: Den er beregnet til at løse branchens vanskelige problem: at afbalancere multimodal forståelse og billedgenerering i henhold til...

Ikke kategoriseret

Janus-serien: Fælles multimodale forståelses- og genereringsmodeller

Afwd.gstar@gmail.com 28. januar 202528. januar 2025

Lås op for næste generations AI-kapaciteter med open source-innovation Janus-serien fra DeepSeek repræsenterer et banebrydende spring inden for multimodal AI, der problemfrit integrerer billedforståelse, tekst-til-billede-generering og avanceret sprogmodellering. Disse modeller er designet til forskere, udviklere og virksomheder og omdefinerer fleksibilitet og ydeevne i AI-applikationer. 🚀 Seneste opdateringer Hold dig på forkant med banebrydende udgivelser: 🔥 Hvorfor vælge Janus-serien? 1. Janus-Pro: Skalering af multimodale...

Den nye stjerne inden for multimodal billedgenerering: Janus-4o? DelGPT-4o-Image sætter en ny standard for datasæt og tilpasser billedgenerering til GPT-4o.

Oversigt over datasæt

Relaterede links

Papirintroduktion

Metodeoversigt

Eksperimentelle resultater

Konklusioner

Sådan installerer og bruger du DeepSeek R1 på din lokale computer

Hvor god er DeepSeeks Janus-Pro?

Markøren understøtter DeepSeek R1, og nye versioner opdaterer flere funktioner

Elon Musks Grokipedia: Fremtiden for vidensdeling og en rival til Wikipedia

Dybdegående analyse: Hvilke nyskabelser har DeepSeeks nyligt udgivne Janus-Pro?

Janus-serien: Fælles multimodale forståelses- og genereringsmodeller

Skriv et svar Annuller svar

Ressourcer

Venner