Brenda misionit të OpenAI për të ndërtuar një inteligjencë artificiale që bën gjithçka për ju

Vetëm pak kohë pasi Hunter Lightman iu bashkua OpenAI si studiues në vitin 2022, ai pa kolegët e tij të lançonin ChatGPT – një nga produktet me rritjen më të shpejtë në histori. Ndërkohë, Lightman punonte në heshtje me një ekip që synonte t’u mësonte modeleve të OpenAI të zgjidhnin probleme të matematikës në nivelin e konkurseve të shkollës së mesme.

Sot, ky ekip i njohur si “MathGen”, konsiderohet thelbësor për përpjekjen udhëheqëse të OpenAI për të ndërtuar modele AI të afta për arsyetim, teknologjia bazë që qëndron pas agjentëve të AI që kryejnë detyra në kompjuter ashtu si do t’i kryente një njeri.

“Po përpiqeshim t’i bënim modelet më të mira në arsyetimin matematikor, dhe në atë kohë ato nuk ishin fort të mira,” shpjegon Lightman për TechCrunch, duke kujtuar fillimet e MathGen.

Sot, modelet e OpenAI janë ende larg perfeksionit, sistemet më të fundit të AI-së vazhdojnë të “fantazojnë” (hallucinate) dhe agjentët e tyre hasin vështirësi në detyra të ndërlikuara. Por përmirësimet në aftësinë për të arsyetuar në mënyrë matematikore janë të dukshme. Një prej modeleve të OpenAI fitoi së fundmi një medalje ari në Olimpiadën Ndërkombëtare të Matematikës, një konkurs për gjimnazistët më të zgjuar në botë.OpenAI beson se këto aftësi arsyetimi do të mund të përkthehen në fusha të tjera dhe, në fund të fundit, do të fuqizojnë agjentët e përgjithshëm të AI – një ëndërr e vjetër e kompanisë.

ChatGPT mund të ketë qenë një sukses aksidental – një eksperiment i thjeshtë kërkimor që u kthye në biznes konsumatorësh viral – por agjentët e OpenAI janë fryt i një pune të gjatë dhe të qëllimshme.

“Një ditë, do t’i kërkosh kompjuterit të bëjë diçka dhe ai thjesht do ta bëjë,” tha CEO i OpenAI, Sam Altman, gjatë konferencës së parë për zhvilluesit në vitin 2023. “Këto aftësi njihen në fushën e AI si ‘agjentë’. Përfitimet që sjellin do të jenë të jashtëzakonshme.”

Agjenti që ndezi garën në Silicon Valley
A do të mund të përmbushin agjentët vizionin e Altman? Kjo mbetet për t’u parë. Por kur OpenAI prezantoi modelin e parë të arsyetimit të AI, të quajtur “o1”, në vjeshtën e vitit 2024, komuniteti i teknologjisë u trondit. Më pak se një vit më vonë, 21 studiuesit që ndërtuan këtë model janë ndër talentet më të kërkuara në Silicon Valley.

Mark Zuckerberg rekrutoi pesë prej tyre për njësinë e re të Meta-s të përqendruar në superinteligjencën artificiale, me paketa kompensimi që kalonin 100 milionë dollarë. Një prej tyre, Shengjia Zhao, u emërua së fundmi si kryeshkencëtar i Meta Superintelligence Labs.

Rilindja e “reinforcement learning”
Ngjitja e modeleve të arsyetimit dhe agjentëve të AI lidhet ngushtë me një teknikë trajnimi të njohur si “reinforcement learning” (RL) – mësim përmes përforcimit. RL i jep modelit të AI një vlerësim nëse zgjedhjet që bëri ishin të sakta apo jo, brenda një ambienti të simuluar.

RL është përdorur prej dekadash. Në vitin 2016, një sistem AI i ndërtuar nga Google DeepMind, AlphaGo, mori vëmendjen globale pasi mposhti një kampion botëror në lojën Go.

Në atë kohë, një prej punonjësve të parë të OpenAI, Andrej Karpathy, filloi të mendojë se si mund të përdorej RL për të ndërtuar një agjent AI që dinte të përdorte kompjuterin. Por deshën vite për të zhvilluar modelet dhe teknikat e duhura.

Nga “Q*” te “Strawberry” dhe më pas te o1
Në vitin 2018, OpenAI ndërtoi modelin e parë të madh të gjuhës GPT, i trajnuar me sasi të mëdha të dhënash nga interneti. Modelet GPT u shquan për aftësi të larta në përpunimin e tekstit, por kishin mangësi serioze në matematikë.

Vetëm në vitin 2023 OpenAI arriti një përparim të madh, të quajtur fillimisht “Q*” e më vonë “Strawberry”, duke kombinuar LLM-të, RL-në dhe një teknikë të re: test-time computation – e cila i jepte modelit më shumë kohë dhe fuqi llogaritëse për të planifikuar dhe verifikuar zgjidhjet përpara se të jepte një përgjigje.

Kjo bëri të mundur përdorimin e një metode të quajtur “chain-of-thought” (zinxhir mendimi), që përmirësoi ndjeshëm performancën e AI në pyetje që nuk i kishte parë më parë.

“Pashë modelin të fillonte të arsyetonte,” thotë studiuesi El Kishky. “Vinte re gabimet, tërhiqej, ndonjëherë dukej sikur zhgënjehej. Ishte si të lexoje mendimet e dikujt.”

OpenAI i bashkoi këto teknika për të ndërtuar modelin “Strawberry”, i cili çoi direkt në krijimin e o1. Aftësia për të planifikuar dhe verifikuar fakte e këtyre modeleve u pa menjëherë si themel për ndërtimin e agjentëve të AI.

Lexo edhe: Rreth 26 kompani teknologjike nënshkruajnë Kodin e BE-së për Inteligjencën Artificiale

Përmasat e reja të arsyetimit
Pas suksesit të Strawberry, OpenAI krijoi një ekip të dedikuar për “Agjentët”, i drejtuar nga studiuesi Daniel Selsam. Fillimisht, nuk bëhej ndarje mes “modelit të arsyetimit” dhe “agjentëve”. Qëllimi ishte të ndërtoheshin sisteme AI që përfundonin detyra komplekse.

Kjo punë u integrua më pas në zhvillimin e modelit o1, nën drejtimin e bashkëthemeluesit Ilya Sutskever, shefit të kërkimit Mark Chen dhe shkencëtarit të lartë Jakub Pachocki.

A “arsyeton” vërtet inteligjenca artificiale?
Çfarë do të thotë që një AI të arsyetojë? Në pamje të parë, synimi i kërkimeve në AI është të rikrijojë inteligjencën njerëzore me kompjuterë. Me prezantimin e o1, ChatGPT mori funksione të reja që ngjajnë me procesin njerëzor të mendimit.

Disa studiues si El Kishky përpiqen ta përkufizojnë arsyetimin në mënyrë teknike: “Po mësojmë modelin si të përdorë fuqinë llogaritëse në mënyrë të efektshme për të arritur një përgjigje – nëse e përkufizon kështu, po, ai arsyeton.”

Lightman shpjegon: “Nëse modeli zgjidh probleme të vështira, do të thotë se bën çfarëdo forme të arsyetimit të nevojshme për t’ia dalë. E quajmë ‘arsyetim’ sepse i ngjan mendimit njerëzor, por është thjesht një mjet për të krijuar AI të fuqishme e të dobishme.”

E ardhmja: Agjentë AI për detyra subjektive
Sot, agjentët AI funksionojnë më mirë në fusha me rregulla të qarta, si programimi. OpenAI ka ndërtuar “Codex Agent”, që ndihmon inxhinierët të automatizojnë pjesë të kodimit. Modelet e Anthropic janë gjithashtu shumë të përdorura në platforma si Claude Code dhe Cursor.

Por kur bëhet fjalë për detyra më subjektive – si kërkimi i një produkti online apo gjetja e parkimit afatgjatë – këta agjentë shpesh gabojnë, harxhojnë kohë dhe japin rezultate jo të kënaqshme.

Lightman thotë se kjo ndodh sepse ende nuk dimë si të trajnojmë modele për detyra që nuk kanë një “të saktë” të qartë. Megjithatë, OpenAI tashmë po eksperimenton me metoda të reja të mësimit me RL që nuk kërkojnë verifikim të drejtpërdrejtë.

Modeli i fundit që fitoi medaljen e artë në Olimpiadë përdori shumë agjentë njëkohësisht për të eksploruar zgjidhje të ndryshme dhe për të përzgjedhur më të mirën. E njëjta teknikë po përdoret nga Google dhe xAI për të ndërtuar modele të reja.

OpenAI synon ta sjellë këtë progres në modelin e ardhshëm GPT-5 – një AI më e fuqishme, më e thjeshtë për t’u përdorur dhe më intuitive në kuptimin e qëllimeve të përdoruesit.

A do të jetë OpenAI ende udhëheqësi i kësaj gare?
OpenAI e nisi garën për inteligjencë artificiale, por sot përballet me një konkurrencë serioze: Google, Anthropic, Meta dhe xAI po afrohen gjithnjë e më shumë. Pyetja nuk është më thjesht nëse OpenAI do të mund të ndërtojë agjentët e së ardhmes — por nëse do t’ia dalë para se ta bëjnë të tjerët.

Techcrunch

Që nga viti 2015 nxisim shpirtin sipërmarrës, inovacionin dhe rritjen personale duke ndikuar në zhvillimin e një mjedisi motivues dhe pozitiv tek lexuesit tanë. Mbështetja juaj na ndihmon ta vazhdojmë këtë mision.

Na Suporto

Inteligjenca artificiale
Publikuar: 04/08/2025	764		Fatima Gorezi		+ Businessmag Extension

Ndaj këtë artikull