Dikur ishte shumë e lehtë të dalloje një imazh të krijuar nga AI nga një i bërë nga njeriu. Vetëm dy vite më parë, modelet e gjenerimit të imazheve nuk arrinin të shkruanin saktë as një menu të thjeshtë restoranti, shpesh shpiknin fjalë si “enchuita”, “churiros” apo “burrto”.
Sot, situata ka ndryshuar ndjeshëm. Kur i kërkohet modelit të ri Images 2.0 të krijojë një menu me ushqime meksikane, rezultati është aq i saktë sa mund të përdoret drejtpërdrejt në një restorant, pa e vënë re klientët që është krijuar nga inteligjenca artificiale.
Ja si ishte situata para 3 vitesh me DALL-E 3:

Historikisht, modelet e gjenerimit të imazheve kanë pasur vështirësi me tekstin sepse bazoheshin në të ashtuquajturat “diffusion models”. Këto modele rindërtojnë një imazh duke nisur nga zhurma vizuale, dhe teksti përbën vetëm një pjesë shumë të vogël të tij, ndaj nuk trajtohet me të njëjtin prioritet si elementët e tjerë vizualë.
Për këtë arsye, studiuesit kanë eksploruar metoda të reja, si modelet autoregresive, të cilat funksionojnë më ngjashëm me modelet gjuhësore (LLM) dhe janë më të mira në parashikimin dhe ndërtimin e elementeve si teksti brenda imazheve.
Megjithatë, OpenAI nuk ka dhënë detaje të qarta mbi teknologjinë që përdor Images 2.0. Ajo që kompania ka konfirmuar është se modeli i ri ka aftësi “të menduari”, që i lejojnë të kërkojë në web, të krijojë disa variante imazhesh nga një kërkesë e vetme dhe të kontrollojë vetë rezultatet që prodhon.
Lexo edhe: Një ide, një garazh, një revolucion: Historia e Gymshark
Kjo e bën Images 2.0 shumë të dobishëm për krijimin e materialeve të marketingut, si dhe për përmbajtje më komplekse si komikë me disa panele apo dizajne në formate të ndryshme. Modeli gjithashtu ka përmirësuar ndjeshëm aftësinë për të gjeneruar tekst në gjuhë jo-latine, si japonishtja, koreanja, hindi apo bengalishtja.
Sipas OpenAI, Images 2.0 sjell një nivel të ri saktësie dhe cilësie në krijimin e imazheve. Ai arrin të ndjekë udhëzimet me shumë detaje, duke ruajtur elementë të vegjël që më parë ishin problematikë për modelet e tilla, si tekstet e imta, ikonat, ndërfaqet apo kompozimet e ngarkuara vizualisht, me rezolucion deri në 2K.
Megjithatë, këto përmirësime vijnë me një kosto të vogël në kohë. Gjenerimi i një imazhi kompleks nuk është aq i menjëhershëm sa një përgjigje tekstuale, por gjithsesi kërkon vetëm disa minuta.
Images 2.0 është tashmë i disponueshëm për të gjithë përdoruesit e ChatGPT dhe Codex, ndërsa përdoruesit me pagesë kanë akses në funksione më të avancuara. Po ashtu, kompania do të ofrojë edhe API-në “gpt-image-2”, me çmime që varen nga cilësia dhe rezolucioni i imazheve të gjeneruara.
Që nga viti 2015 nxisim shpirtin sipërmarrës, inovacionin dhe rritjen personale duke ndikuar në zhvillimin e një mjedisi motivues dhe pozitiv tek lexuesit tanë. Mbështetja juaj na ndihmon ta vazhdojmë këtë mision.
Na Suporto