Një studim i fundit tregon se përdorimi i AI-së për llogaritje të përditshme mbart rreziqe: ka rreth 40% gjasa që përgjigjja të jetë e pasaktë. Hulumtuesit testuan pesë modele AI përmes 500 pyetjeve të përditshme matematikore, duke zbuluar se saktësia ndryshon shumë nga modeli në model dhe nga fusha në fushë.
Modelet e testuara:
-
ChatGPT-5 (OpenAI)
-
Gemini 2.5 Flash (Google)
-
Claude 4.5 Sonnet (Anthropic)
-
DeepSeek V3.2 (DeepSeek AI)
-
Grok-4 (xAI)
Rezultatet: asnjë model nuk arriti mbi 63% saktësi në matematikën e përditshme. Lider është Gemini me 63%, i ndjekur nga Grok me 62.8%. DeepSeek renditet i treti me 52%, ChatGPT pason me 49.4%, ndërsa Claude mbyll listën me 45.2%. Mesatarja e thjeshtë e pesë modeleve është 54.5%.
Lexo edhe: Facebook do të tarifojë përdoruesit për postimin e linkeve
Saktësia sipas kategorive
-
Matematikë dhe konvertime: Gemini 83%, Grok 76.9%, DeepSeek 74.1%, ChatGPT 66.7%
-
Fizikë: mesatarja vetëm 35.8%, ku Grok 43.8%, Gemini 43%, Claude 26.6%
-
Biologji dhe kimi: DeepSeek 10.6%
Grok dhe Gemini janë më të saktët në financë dhe ekonomi (76.7%), ndërsa ChatGPT, Claude dhe DeepSeek mbeten nën 50%.
Katër gabimet kryesore të AI-ve:
-
Llogaritje të pasakta (68% e gabimeve): gabime në saktësinë e numrave ose rrumbullakime
-
Logjikë e gabuar (26%): formula ose metoda e pasaktë
-
Keqkuptim i udhëzimeve (5%): interpretime të gabuara të pyetjes
-
Refuzimi për të përgjigjur
Ekspertët këshillojnë: “Nëse detyra është kritike, përdorni kalkulator ose burime të sigurta, ose kontrolloni përgjigjen edhe me një AI tjetër,” tha Dawid Siuda, bashkëautor i ORCA Benchmark.
Që nga viti 2015 nxisim shpirtin sipërmarrës, inovacionin dhe rritjen personale duke ndikuar në zhvillimin e një mjedisi motivues dhe pozitiv tek lexuesit tanë. Mbështetja juaj na ndihmon ta vazhdojmë këtë mision.
Na Suporto