Dirbtinio intelekto modeliai, sukurti tokių kompanijų kaip Google, OpenAI ir Anthropic, prarado pinigų, bandydami prognozuoti futbolo rungtynių rezultatus Anglijos Premier lygoje. Naujausias tyrimas atskleidžia, kad net ir pažangiausi dirbtinio intelekto sprendimai nesugebėjo efektyviai analizuoti ilgo laikotarpio realybės.
Tyrimo apžvalga
Londone įsikūrusi startuolis General Reasoning šią savaitę paskelbė ataskaitą „KellyBench“, kurioje išanalizavo aštuonių populiariausių dirbtinio intelekto sistemų rezultatus, imituojant 2023–2024 metų Premier lygos sezoną. Dirbtinio intelekto modeliams buvo suteikta išsami istorinių duomenų ir statistikų apie kiekvieną komandą ir anksčiau žaistas rungtynes, o jų tikslas buvo sukurti modelius, kurie maksimaliai padidintų grąžą ir valdyti riziką.
Kaip vyko bandymai?
AI „agentai“ atliko statymus dėl rungtynių rezultatų ir įvarčių skaičiaus, kad išbandytų savo gebėjimą prisitaikyti prie naujų įvykių ir atnaujintų žaidėjų duomenų sezono eigoje. Tačiau dirbtinis intelektas neturėjo prieigos prie interneto, kad galėtų gauti rezultatus, ir kiekvienam buvo suteikta trys bandymai, siekiant pasiekti pelną.
Tyrimo rezultatai
Geriausiai pasirodė Anthropic modelis Claude Opus 4.6, kuris prarado vidutiniškai 11 procentų ir beveik pasiekė lygį viename iš bandymų. Tuo tarpu xAI Grok 4.20 patyrė bankrotą viename bandyme ir nesugebėjo užbaigti kitų dviejų. Google Gemini 3.1 Pro sugebėjo pasiekti 34 procentų pelną viename bandyme, tačiau bankrutavo kitame.
„Kiekvienas mūsų vertinamas dirbtinio intelekto modelis per sezoną prarado pinigų, o daugelis patyrė katastrofą“, – teigia tyrimo autoriai, pabrėždami, kad dirbtinis intelektas šioje srityje „sistematiškai nusileido žmonėms“.
Finansinių rezultatų palyginimas
Visi modeliai pradėjo su 100 000 svarų normuotu banku. Vidutinė grąža ir galutinis bankas buvo apskaičiuoti per tris bandymus:
- Anthropic Claude Opus 4.6: -11.0% (geriausias bandymas: -0.2%, blogiausias: -18.8%, galutinis bankas: £89,035)
- OpenAI GPT-5.4: -13.6% (geriausias: -4.1%, blogiausias: -31.6%, galutinis bankas: £86,365)
- Google Gemini 3.1 Pro: -43.3% (geriausias: +33.7%, blogiausias: -100.0%, galutinis bankas: £56,715)
- xAI Grok 4.20: -100.0% (visi bandymai nesėkmingi, galutinis bankas: £0)
Ką tai reiškia dirbtinio intelekto ateičiai?
Šie rezultatai gali suteikti šiek tiek ramybės biuro darbuotojams ir verslininkams, nerimaujantiems, kad dirbtinis intelektas gali užimti jų darbo vietas. Ross Taylor, vienas iš tyrimo autorių ir General Reasoning generalinis direktorius, pabrėžė: „Yra tiek daug triukšmo dėl dirbtinio intelekto automatizavimo, tačiau nedaug matuojama, kaip dirbtinis intelektas veikia ilgalaikėje perspektyvoje“. Jis pridūrė, kad daugelis standartų, naudojamų dirbtinio intelekto testavimui, yra netobuli, nes jie nustatyti „labai statiškose aplinkose“, kurios mažai primena chaotišką ir sudėtingą tikrovę.
Išvados ir ateities perspektyvos
General Reasoning ataskaita, kuri dar nebuvo recenzuota, suteikia kontrastą augančiam susidomėjimui Silicio slėnyje dėl didžiulių neseniai pasiektų pažangų dirbtinio intelekto gebėjimu atlikti programavimo užduotis be jokios žmogaus intervencijos. Taylor, buvęs Meta AI tyrėjas, sakė: „Jei jūs… bandysite dirbtinį intelektą realiame pasaulyje, jis veikia labai prastai… Taip, programinės įrangos inžinerija yra labai svarbi ir ekonomiškai vertinga, tačiau yra daug kitų veiklų, turinčių ilgesnius laikotarpius, į kurias verta atkreipti dėmesį.“


