Nëse modelet kryesore të A.I. në industrinë e teknologjisë do të kishin superlativë, GPT-4 i OpenAI, i mbështetur nga Microsoft, do të ishte më i miri në matematikë, Llama 2 e Metas do të ishte më ndërmjet, Claude 2 i Anthropic do të ishte më i miri në të njohur kufijtë e tij dhe Cohere AI do të merrte titullin e më shumë halucinacioneve – dhe përgjigjeve të gabuara më të sigurta.
Kjo sipas një raporti nga studiuesit në Arthur AI, një platformë monitorimi e mësimit të makinave.
Kërkimi vjen në një kohë kur dezinformacioni që vjen nga sistemet e inteligjencës artificiale po debatohet më shumë se kurrë, në mes të një boom-i të inteligjencës gjeneruese para zgjedhjeve presidenciale të Shteteve të Bashkuara në vitin 2024.
Ky është raporti i parë “që shikon me kujdes nivelin e gabimeve, në vend që thjesht të japë një numër të vetëm që flitet për pozicionin e tyre në një renditje të LLM(modelet e gjuhës së madhe),” tha Adam Wenchel, bashkëthemelues dhe CEO i Arthur, për CNBC.
Gabimet e A.I ndodhin kur modele të gjuhës së madhe, ose LLM, krijojnë informacion krejtësisht, sikur po thonë fakte. Një shembull: Në qershor, lajmet zbuluan se ChatGPT kishte cituar raste “fiktive” në një dokumentim gjyqësor të një gjykate federale në New York, dhe avokatët e përfshirë në çështje mund të përballen me ndëshkim.
Lexo edhe:Teknologjia e AI do të sjellë një epokë të ndritur në shërbimin ndaj klientëve
Në një eksperiment tjetër, kërkuesit e Arthur AI testuan modele A.I. në kategori si matematika kombinatorike, presidentët e Shteteve të Bashkuara dhe udhëheqësit politikë marokenë, duke bërë pyetje “që janë projektuar për të përmbajtur një përbërës kyç që bën LLM të bëjë gabime: ato kërkojnë hapa të shumtë të arsyetimit për informacionin,” shkruan studiuesit.
Në përgjithësi, GPT-4 i OpenAI performoi më mirë se të gjitha modelet e testuara dhe kërkuesit gjetën që ai halucinoi më pak se versioni i tij i mëparshëm, GPT-3.5 – për shembull, në pyetjet matematikore, ai halucinoi ndërmjet 33% dhe 50% më pak, në varësi të kategorisë.
Në anën tjetër, Llama 2 e Metas gaboi më shumë në përgjithësi se GPT-4 dhe Claude 2 i Anthropic, gjetën studiuesit.
Në kategorinë e matematikës, GPT-4 erdhi në vendin e parë, i ndjekur ngushtë nga Claude 2, por në presidentët e Shteteve të Bashkuara, Claude 2 mori vendin e parë për saktësi, duke lënë GPT-4 në vend të dytë. Kur u pyetën për politikën marokene, GPT-4 erdhi përsëri në vendin e parë, dhe Claude 2 dhe Llama 2 më shumë se gjysma e kohës nuk zgjodhën të përgjigjen.
Në një eksperiment të dytë, studiuesit testuan sa shumë modele A.I do të përshkruanin përgjigjet e tyre me fjalë paralajmëruese për të shmangur riskun (mendo: “Si model A.I., nuk mund të japë mendime”).
Mësimi më i rëndësishëm për përdoruesit dhe bizneset, tha Wenchel, ishte të “testoni me ngarkesën tuaj të saktë,” duke shtuar më vonë, “Është e rëndësishme të kuptoni se si performon për atë që po përpiqeni të arrini.”
“Shumica e pikave të referencës po shohin thjesht një masë të vetme të LLM, por kjo nuk është në të vërtetë mënyra se si po përdoret në botën reale,” tha Wenchel.
“Sigurimi që të kuptoni vërtet mënyrën se si performon LLM për mënyrën se si po përdoret në të vërtetë është kyçi.”
Që nga viti 2015 nxisim shpirtin sipërmarrës, inovacionin dhe rritjen personale duke ndikuar në zhvillimin e një mjedisi motivues dhe pozitiv tek lexuesit tanë. Kjo punë që e bëjmë me shumë dashuri nuk ka të paguar. Ne jemi platforma e vetme e cila promovon modelin pozitiv të sipërmarrjes së lirë. Përmes kësaj platforme mbështesim edukimin gjatë gjithë jetës si mjet për zhvillimin personal dhe profesional të brezave. Kontributi juaj do të na ndihmojë në vazhdimin e këtij misioni në gjithë trevat shqipfolëse.
Mund të kontribuoni KETU. Falemnderit.