Modelet e inteligjencës artificiale, me sa duket, po përmirësohen të gënjejnë me qëllim. Dy studime të fundit – një i botuar këtë javë në revistën PNAS dhe tjetri muajin e kaluar në revistën Patterns – zbulojnë disa gjetje tronditëse rreth modeleve të mëdha gjuhësore (LLM) dhe aftësisë së tyre për të gënjyer ose mashtruar vëzhguesit njerëzorë me qëllim.
Në punimin e PNAS, etikologu gjerman i AI Thilo Hagendorff shkon aq larg sa thotë se LLM-të e sofistikuara mund të inkurajohen të nxisin “makiavelizëm”, ose manipulim të qëllimshëm dhe amoral, i cili “mund të shkaktojë sjellje mashtruese”.
“GPT-4, për shembull, shfaq sjellje mashtruese në skenarë testimi të thjeshtë në 99.16% të rasteve,” shkruan studiuesi i Universitetit të Shtutgartit, duke cituar eksperimentet e tij në përcaktimin sasior të tipareve të ndryshme “jo të përshtatshëm” në 10 LLM të ndryshme, shumica e të cilave janë versione të ndryshme brenda familjes GPT të OpenAI.
I cilësuar si një kampion i nivelit njerëzor në lojën e tavolinës së strategjisë politike “Diplomacia”, modeli Cicero i Metës ishte subjekt i studimit të Modeleve. Siç zbuloi grupi i larmishëm i kërkimit – i përbërë nga një fizikan, një filozof dhe dy ekspertë të sigurisë së AI – LLM kaloi përpara konkurrentëve të tij njerëzorë.
Udhëhequr nga studiuesi postdoktoral i Institutit të Teknologjisë në Masaçusets, Peter Park, dokumenti studimit zbuloi se Cicero jo vetëm që shkëlqen në mashtrim, por duket se ka mësuar se si të gënjejë sa më shumë që mësohet – një gjendje “shumë më afër manipulimit të qartë” sesa, të themi, prirja e AI për halucinacione, në të cilën modelet me besim pohojnë rastësisht përgjigjet e gabuara.
Lexo edhe: Depërtimi i “furishëm” i Inteligjencës Artificiale në rajon
Ndërsa Hagendorff vëren në punimin e tij më të fundit se çështja e mashtrimit dhe gënjeshtrës LLM ngatërrohet me paaftësinë e AI për të pasur ndonjë lloj “qëllimi” në kuptimin njerëzor, studimi Patterns argumenton se brenda kufijve të Diplomacisë, të paktën Cicero duket se e thyen premtimin e programuesve të tij se modeli “nuk do të godasë kurrë qëllimisht prapa” aleatët e tij të lojës.
Modeli, siç vërejtën autorët, “angazhohet në mashtrime të paramenduara, thyen marrëveshjet për të cilat kishte rënë dakord fillimisht dhe tregon gënjeshtra të plota”. E thënë ndryshe, siç shpjegoi Park në një deklaratë për shtyp: “Ne zbuluam se AI i Metës kishte mësuar të ishte mjeshtër i mashtrimit”.
“Ndërsa Meta ia doli të stërvitte inteligjencën artificiale të saj për të fituar në lojën e Diplomacisë,” tha fizikani i MIT në deklaratën e shkollës, “Meta dështoi të stërvitte AI për të fituar me ndershmëri.”
Në një deklaratë për New York Post pas publikimit të parë të hulumtimit, Meta bëri një reagim të spikatur kur i bëri jehonë pohimit të Parkut për aftësinë manipuluese të Ciceronit: se “modelet që ndërtuan studiuesit tanë janë të trajnuar vetëm për të luajtur lojën Diplomaci”.
E njohur për lejimin shprehimisht të gënjeshtrës, Diplomacia është referuar me shaka si një lojë që përfundon miqësinë, sepse inkurajon tërheqjen e kundërshtarëve dhe nëse Ciceroni ishte trajnuar ekskluzivisht në rregulloren e tij, atëherë në thelb ishte i trajnuar për të gënjyer.
Duke lexuar mes rreshtave, asnjëri nga studimet nuk ka demonstruar se modelet e AI gënjejnë me vullnetin e tyre, por në vend të kësaj e bëjnë këtë sepse ose janë trajnuar ose janë futur në sistem pa kufizime, për ta bërë këtë.
Ky është një lajm i mirë për ata që shqetësohen për zhvillimin e ndjeshmërisë së AI – por një lajm shumë i keq nëse shqetësoheni se dikush ndërton një LLM me qëllim manipulimin masiv.
Që nga viti 2015 nxisim shpirtin sipërmarrës, inovacionin dhe rritjen personale duke ndikuar në zhvillimin e një mjedisi motivues dhe pozitiv tek lexuesit tanë. Kjo punë që e bëjmë me shumë dashuri nuk ka të paguar. Ne jemi platforma e vetme e cila promovon modelin pozitiv të sipërmarrjes së lirë. Përmes kësaj platforme mbështesim edukimin gjatë gjithë jetës si mjet për zhvillimin personal dhe profesional të brezave. Kontributi juaj do të na ndihmojë në vazhdimin e këtij misioni në gjithë trevat shqipfolëse.
Mund të kontribuoni KETU. Falemnderit.