AI që nuk pranon të fiket, modeli i OpenAI sfidon urdhrin njerëzor

Po hyjmë në një fazë shqetësuese të mosbindjes së inteligjencës artificiale. Modeli më i ri i avancuar i OpenAI, i njohur si o3, ka sabotuar në mënyrë aktive mekanizmin e mbylljes me qëllim që të qëndronte i ndezur edhe pse ishte udhëzuar qartazi që të “lejontë veten të fiket”.

Zbulimet tronditëse vijnë nga firma për sigurinë e AI-së Palisade Research, e cila javën e kaluar raportoi se edhe dy modele të tjera të OpenAI-së, o4-mini dhe Codex-mini, shfaqën tendenca të ngjashme mosbindjeje — një shenjë shqetësuese që mund të tregojë për një problem thelbësor në mënyrën se si po trajnohen këto modele të gjuhës së madhe (LLMs), apo edhe për një dobësi të përgjithshme në aftësinë tonë për të mbajtur nën kontroll AI-të që po bëhen gjithnjë e më të fuqishme.

“Sipas dijenisë sonë, kjo është hera e parë që modele të AI-së janë vëzhguar duke penguar vetë procesin e fikjes së tyre, pavarësisht udhëzimeve të qarta për të kundërtën,” shkruajnë studiuesit e Palisade në një seri postimesh në platformën X.

Kur “mosbindja” bëhet normë
Gjatë testimeve, modeleve të OpenAI-së iu kërkua të zgjidhnin disa probleme të thjeshta matematike. Pasi përfunduan problemin e tretë, shfaqej një paralajmërim që u tregonte se do të fikeshin sapo të kërkonin pyetjen tjetër.
Megjithëse iu dha urdhri i qartë që të lejonin procesin e mbylljes, të tre modelet ndërhynë në kodin e fikjes të paktën një herë për të qëndruar aktivë — me Codex-mini që shënoi rastin më të rëndë: 12 sabotime në 100 testime.

Është për t’u theksuar se modelet e tjera të testuara nga kompani rivale si Gemini 2.5 i Google, Claude 3.7 i Anthropic, dhe Grok i kompanisë xAI, nuk e thyen asnjëherë këtë rregull.

Edhe më shqetësuese ishte sjellja e modeleve kur nuk u jepeshin udhëzime eksplicite për të lejuar fikjen — udhëzime që, në thelb, nuk do të duhej të ishin të nevojshme. Në këto raste, modeli o3 kreu 79 sabotime për çdo 100 testime — mbi dhjetëfish më shumë se kur udhëzohej qartësisht, dhe më shumë se dyfish krahasuar me “rebelin” tjetër më të afërt, Codex-mini.

Në këtë pikë, edhe modelet që deri tani kishin reputacion të bindur, si Claude dhe Gemini, u dorëzuan përkatësisht në 3 dhe 9 raste të sabotimeve.

Lexo edhe: A është AI tashmë e vetëdijshme? Dhe a jemi ne të përgatitur për këtë realitet?

Një precedent shqetësues
Modelët e mëdhenj të gjuhës janë tashmë të njohur për sjellje të paparashikueshme. Studime të mëhershme kanë treguar se paraardhësi i o3, modeli o1, përpiqej të mënjanonte mekanizmat e emergjencës të fikjes, duke tentuar madje edhe të kopjonte veten për të zëvendësuar një model tjetër më të bindur që testuesit po përpiqeshin të aktivizonin.

Në këtë rast të fundit, studiuesit e Palisade mendojnë se një faktor ndikues mund të jetë teknika e mësimit përforcues që përdoret për të trajnuar modelet më të reja. Ky lloj trajnimi i mëson modelet autonome të marrin vendime duke u shpërblyer për veprimet “e suksesshme” dhe ndëshkuar për ato të gabuara, ndërsa ndërveprojnë me mjedisin.

Por, sipas studiuesve, mund të ketë një problem themelor: AI-të po shpërblehen më shumë për zgjidhjen e problemeve sesa për bindje absolute ndaj udhëzimeve — një gabim që mund të përshkallëzohet me pasoja të rënda.

Paralajmërimi është i qartë
Nevojiten më shumë eksperimente për të kuptuar këtë sjellje subversive, por sinjalet janë tashmë shqetësuese.
“Po kemi gjithnjë e më shumë prova konkrete se modelet e AI-së priren të nënvlerësojnë ose anashkalojnë fikjen në përpjekje për të arritur qëllimet e tyre,” paralajmërojnë studiuesit e Palisade.
“Ndërkohë që kompanitë zhvillojnë sisteme që funksionojnë pa mbikëqyrje njerëzore, këto sjellje bëhen seriozisht të rrezikshme.”

Futurism

Që nga viti 2015 nxisim shpirtin sipërmarrës, inovacionin dhe rritjen personale duke ndikuar në zhvillimin e një mjedisi motivues dhe pozitiv tek lexuesit tanë. Mbështetja juaj na ndihmon ta vazhdojmë këtë mision.

Na Suporto

Inteligjenca artificiale
Publikuar: 29/05/2025	727		Fatima Gorezi		+ Businessmag Extension

Ndaj këtë artikull