Multimodaalisen kuvanmuodostuksen uusi tähti: Janus-4o? Jaa: GPT-4o-Image asettaa uuden standardin datajoukoille yhdenmukaistamalla kuvanmuodostuksen GPT-4o:n kanssa.

JaaGPT-4o-kuva on laajamittainen ja korkealaatuinen kuvanluontidatajoukko, jossa kaikki kuvat luodaan GPT-4o:n kuvanluontiominaisuuksilla.

Tämä aineisto pyrkii yhdistämään avoimen lähdekoodin multimodaalisten mallien edut GPT-4o:n vahvuuksiin visuaalisen sisällön luomisessa.

Se sisältää 45 000 tekstistä kuvaksi- ja 46 000 kuvasta tekstiksi -näytettä, mikä tekee siitä käytännöllisen resurssin multimodaalisten mallien parantamiseen kuvan luonti- ja muokkaustehtävissä.

Janus-4o on multimodaalinen oikeustieteen maisteri (LLM), joka pystyy luomaan tekstistä kuvaksi ja tekstistä + kuvasta kuvaksi -yhdistelmiä. Se perustuu Janus-Pro:hen ja sitä on hienosäädetty ShareGPT-4o-Image-aineiston avulla. Janus-Pro:hen verrattuna Janus-4o tuo mukanaan tekstistä + kuvasta kuvaksi -yhdistelmiä ja saavuttaa merkittäviä parannuksia tekstistä kuvaksi -yhdistelmien luonnissa.

Sisällysluettelo

Tietojoukon yleiskatsaus

ShareGPT-4o-Image-aineisto sisältää 91 000 GPT-4o-kuvan luontinäytettä, jotka on luokiteltu seuraavasti:

Tekstistä kuvaksi: 45 717
Teksti-plus-kuva-kuvaksi: 46 539

Aiheeseen liittyviä linkkejä

Koodi: github klikkaa tästä

Malli: hanki ShareGPT-4o-Image-malli

Paperi: klikkaa tästä

Artikkelin esittely

Viimeaikaiset edistysaskeleet multimodaalisissa generointimalleissa ovat mahdollistaneet realistisen, käskyjen mukaisen kuvan generoinnin. Johtavat järjestelmät, kuten GPT-4o-Image, ovat kuitenkin edelleen suljettuja ja saavuttamattomissa.

Jotta nämä ominaisuudet olisivat yleisön saatavilla, artikkelissa esitellään ShareGPT-4o-Image, ensimmäinen aineisto, joka sisältää 45 000 tekstistä kuvaksi- ja 46 000 tekstistä ja kuvasta kuvaksi -esimerkkiä. Kaikki nämä esimerkit on syntetisoitu GPT-4o:n kuvanluontiominaisuuksia käyttäen sen edistyneiden kuvanluontiominaisuuksien parantamiseksi. Tämän aineiston avulla artikkelissa kehitettiin Janus-4o, multimodaalinen laaja kielimalli, joka pystyy luomaan tekstistä kuvaksi ja tekstistä ja kuvasta kuvaksi -muunnoksia.

Janus-4o ei ainoastaan paranna merkittävästi tekstistä kuvaksi -generointiominaisuuksia edeltäjäänsä Janus-Pro:hen verrattuna, vaan se esittelee myös tekstistä ja kuvasta kuvaksi -generointiominaisuudet. Merkillepantavaa on, että se saavuttaa vaikuttavan suorituskyvyn kuvien luomisessa tekstistä ja kuvista tyhjästä käyttämällä vain 91 000 synteettistä näytettä ja sitä on koulutettu 6 tuntia 8×A800 GPU -koneella.

Toivomme, että ShareGPT-4o-Imagen ja Janus-4o:n julkaisu edistää avointa tutkimusta fotorealistisessa, käskyjen mukaisessa kuvanmuodostuksessa.

Menetelmän yleiskatsaus

ShareGPT-4o-Image parantaa kuvien luonnin suorituskykyä. Hienosäätämällä Janus-Pro:tä ShareGPT-4o-Image-työkalulla loimme Janus-4o:n, joka osoittaa merkittävästi parantunutta kuvanluontitehoa. Janus-4o tukee myös tekstistä kuvaksi- ja kuvasta kuvaksi -muunnoksia, ja se suoriutui muita vertailuarvoja paremmin vain 91 000 harjoitusnäytteellä.

Janus-4o-mallin yleiskatsaus. Malli perustuu Janus-Pro:hen ja se on rakennettu hienosäätämällä sitä ShareGPT-4o-Image-alustalla. Se sisältää parannuksia tekstistä kuvaksi- ja kuvasta kuvaksi -luontitoimintojen tukemiseksi. Sekä tekstistä kuvaksi- että tekstistä kuvaksi -tehtävät koulutetaan yhdessä.

Kokeelliset tulokset

Johtopäätökset

ShareGPT-4o-Image on ensimmäinen laajamittainen aineisto, joka pystyy hyödyntämään GPT-4o:n edistyneitä kuvanluontiominaisuuksia tekstistä kuvaksi ja tekstistä kuvaksi -muodossa. Tämän aineiston pohjalta artikkelissa kehitettiin Janus-4o, koneoppimismalli (MLLM), joka pystyy luomaan korkealaatuisia kuvia pelkästä tekstistä tai kuva-teksti-yhdistelmistä.

Janus-4o saavuttaa merkittäviä parannuksia tekstistä kuvaksi -generoinnissa ja erittäin kilpailukykyisiä tuloksia tekstistä kuvaksi -tehtävissä, mikä osoittaa ShareGPT-4o-Imagen korkean laadun ja käytännöllisyyden.

MLLM-pohjaisen itseregressiivisen kuvanmuodostuksen tehokkuuden ansiosta Janus-4o voidaan kouluttaa vain kuudessa tunnissa 8×A800 GPU -koneella ja saavuttaa merkittäviä suorituskyvyn parannuksia erittäin alhaisilla laskentavaatimuksilla.

Uncategorized

Syvällinen analyysi: Mitä innovaatioita DeepSeekin äskettäin julkaistussa Janus-Pro:ssä on?

Byjanus-ai helmikuu 4, 2025helmikuu 4, 2025

DeepSeek on päivittänyt verkkosivustonsa. Uudenvuodenaattona DeepSeek ilmoitti yllättäen GitHubissa, että Janus-projektitila oli avannut lähdekoodin Janus-Pro-mallin ja teknisen raportin. Korostetaan ensin muutamia keskeisiä kohtia: Sen tarkoituksena on ratkaista alan vaikea ongelma: tasapainoilu multimodaalisen ymmärtämisen ja kuvien tuottamisen välillä Mukaan...

Uncategorized

Elon Muskin Grokipedia: Tiedonjaon tulevaisuus ja kilpailija Wikipedialle

Byjanus-ai lauantai 28, 2025lauantai 28, 2025

Johdanto: Tiedon jakamisen mullistaminen Elon Musk tunnetaan useiden toimialojen vallitsevan tilanteen haastamisesta Teslan sähköautoista SpaceX:n avaruustutkimukseen. Nyt hän on asettanut tähtäimeensä tiedon jakamisen maailman mullistamisen uusimman projektinsa, Grokipedian, avulla. Lokakuun 27. päivänä paikallista aikaa Elon Musk esitteli uuden tietotyökalun…

Uncategorized

Janus Pro DeepSeek: Syväsukellus uusimman tekoälymallin teknologiaan ja soveltamiseen | Tutustu sen taustalla olevaan innovatiiviseen voimaan

Byjanus-ai tammikuu 29, 2025tammikuu 29, 2025

deepseekin edullinen ja suorituskykyinen avoimen lähdekoodin malli on levinnyt. Suuri määrä uusia käyttäjiä on rekisteröitynyt deepseek-sivustolle, mikä on toistuvasti aiheuttanut sivuston kaatumisen. Tekoälyteknologian nopean kehityksen myötä suuret kielimallit (LLM) ovat muuttamassa kaikkia työmme ja elämämme osa-alueita. Mutta se on myös nähnyt monia...

Uncategorized

Tislasin DeepSeek-R1:n päättelykykytiedon Qwen2:een, ja tulokset olivat todella räjähdysmäisiä!!!!

Byjanus-ai tammikuu 29, 2025tammikuu 29, 2025

Ⅰ. Mitä on tiedon tislaus? Tiedon tislaus on mallin tiivistämistekniikka, jota käytetään tiedon siirtämiseen suuresta, monimutkaisesta mallista (opettajan malli) pieneen malliin (oppilaan malli). Keskeinen periaate on, että opettajamalli opettaa opiskelijamallia ennustamalla tuloksia (kuten todennäköisyysjakaumia tai päättelyprosesseja), ja...

Uncategorized

Kattava opas DeepSeekistä, käyttötekniikasta, jota 90% ihmistä ei tunne (suositellaan kirjanmerkiksi).

Byjanus-ai tammikuu 29, 2025tammikuu 29, 2025

Kattava opas DeepSeekiin, käyttötekniikkaan, jota 90% ihmistä ei tiedä (suositellaan kirjanmerkiksi) Koska DeepSeek-V3 julkaistiin kuukausi sitten, olen päivittänyt DeepSeekiin liittyviä artikkeleita ja videoita, koska se on mielestäni erittäin mahtava yritys. Eiliseen asti historiaa todistettiin vihdoin, Yhdysvaltojen Applen App Storessa kärjessä,...

Uncategorized

Deepseek on julkaissut uuden combon: se on juuri julkaissut multimodaalisen mallin Janus Pro, joka ylittää DALL-E3:n.

Byjanus-ai tammikuu 28, 2025tammikuu 28, 2025

ja tekoälyn aikakausi on pikkuhiljaa saapunut. Todennäköisesti kukaan ei odottanut, että tämä kiinalainen uusi vuosi, kuumin aihe ei olisi enää perinteinen Internet punainen kirjekuori taistelu, joka kumppanina kevätjuhla Gala, mutta AI yritykset. Kun kevätjuhla lähestyi, suuret malliyritykset eivät rentoutuneet lainkaan, päivittämällä aalto...

Multimodaalisen kuvanmuodostuksen uusi tähti: Janus-4o? JaaGPT-4o-Image asettaa uuden standardin tietojoukoille yhdenmukaistamalla kuvienmuodostuksen GPT-4o:n kanssa.

Tietojoukon yleiskatsaus

Aiheeseen liittyviä linkkejä

Artikkelin esittely

Menetelmän yleiskatsaus

Kokeelliset tulokset

Johtopäätökset

Syvällinen analyysi: Mitä innovaatioita DeepSeekin äskettäin julkaistussa Janus-Pro:ssä on?

Elon Muskin Grokipedia: Tiedonjaon tulevaisuus ja kilpailija Wikipedialle

Janus Pro DeepSeek: Syväsukellus uusimman tekoälymallin teknologiaan ja soveltamiseen | Tutustu sen taustalla olevaan innovatiiviseen voimaan

Tislasin DeepSeek-R1:n päättelykykytiedon Qwen2:een, ja tulokset olivat todella räjähdysmäisiä!!!!

Kattava opas DeepSeekistä, käyttötekniikasta, jota 90% ihmistä ei tunne (suositellaan kirjanmerkiksi).

Deepseek on julkaissut uuden combon: se on juuri julkaissut multimodaalisen mallin Janus Pro, joka ylittää DALL-E3:n.

Vastaa Peruuta vastaus

Resurssit

Ystävät

Tietojoukon yleiskatsaus

Aiheeseen liittyviä linkkejä

Artikkelin esittely

Menetelmän yleiskatsaus

Kokeelliset tulokset

Johtopäätökset

Samankaltaisia viestejä

Vastaa Peruuta vastaus

Resurssit

Ystävät