Gemini, ChatGPT apo Grok, cili AI është më i saktë në matematikë?

Një studim i fundit tregon se përdorimi i AI-së për llogaritje të përditshme mbart rreziqe: ka rreth 40% gjasa që përgjigjja të jetë e pasaktë. Hulumtuesit testuan pesë modele AI përmes 500 pyetjeve të përditshme matematikore, duke zbuluar se saktësia ndryshon shumë nga modeli në model dhe nga fusha në fushë.

Modelet e testuara:

ChatGPT-5 (OpenAI)
Gemini 2.5 Flash (Google)
Claude 4.5 Sonnet (Anthropic)
DeepSeek V3.2 (DeepSeek AI)
Grok-4 (xAI)

Rezultatet: asnjë model nuk arriti mbi 63% saktësi në matematikën e përditshme. Lider është Gemini me 63%, i ndjekur nga Grok me 62.8%. DeepSeek renditet i treti me 52%, ChatGPT pason me 49.4%, ndërsa Claude mbyll listën me 45.2%. Mesatarja e thjeshtë e pesë modeleve është 54.5%.

Lexo edhe: Facebook do të tarifojë përdoruesit për postimin e linkeve

Saktësia sipas kategorive

Matematikë dhe konvertime: Gemini 83%, Grok 76.9%, DeepSeek 74.1%, ChatGPT 66.7%
Fizikë: mesatarja vetëm 35.8%, ku Grok 43.8%, Gemini 43%, Claude 26.6%
Biologji dhe kimi: DeepSeek 10.6%

Grok dhe Gemini janë më të saktët në financë dhe ekonomi (76.7%), ndërsa ChatGPT, Claude dhe DeepSeek mbeten nën 50%.

Katër gabimet kryesore të AI-ve:

Llogaritje të pasakta (68% e gabimeve): gabime në saktësinë e numrave ose rrumbullakime
Logjikë e gabuar (26%): formula ose metoda e pasaktë
Keqkuptim i udhëzimeve (5%): interpretime të gabuara të pyetjes
Refuzimi për të përgjigjur

Ekspertët këshillojnë: “Nëse detyra është kritike, përdorni kalkulator ose burime të sigurta, ose kontrolloni përgjigjen edhe me një AI tjetër,” tha Dawid Siuda, bashkëautor i ORCA Benchmark.

Që nga viti 2015 nxisim shpirtin sipërmarrës, inovacionin dhe rritjen personale duke ndikuar në zhvillimin e një mjedisi motivues dhe pozitiv tek lexuesit tanë. Mbështetja juaj na ndihmon ta vazhdojmë këtë mision.

Na Suporto

Inteligjenca artificiale
Publikuar: 30/12/2025	864		Fatima Gorezi		+ Businessmag Extension

Ndaj këtë artikull