Boston Dynamics keturkojis robotas „Spot“ dabar gali tiksliai skaityti analoginius termometrus ir slėgio matuoklius, vaikščiodamas po gamyklas ir sandėlius. Šie patobulinimai pasiekami dėka Google DeepMind naujausio roboto AI modelio, kurio tikslas – pagerinti robotų gebėjimus bendraujant su fizine aplinka.
Naujos galimybės su Gemini Robotics-ER 1.6
Naujasis Gemini Robotics-ER 1.6 modelis, pristatytas balandžio 14 dieną, veikia kaip „aukšto lygio mąstymo modelis robotui“, kuris gali planuoti ir vykdyti užduotis. Šis modelis taip pat leidžia tiksliai skaityti tokius prietaisus kaip sudėtingi matuokliai ir atlikti vizualines patikras naudojant stiklines, kurios leidžia pažvelgti į talpyklas ir vamzdžius. Šis našumo patobulinimas atsirado dėl nuolatinio Google DeepMind bendradarbiavimo su robotikos kompanija Boston Dynamics.
Pramoniniai tyrimai ir patikros
Boston Dynamics domisi tiek keturkojų, tiek humanoidinių robotų bandymais įvairiose pramonės įstaigose, įskaitant automobilių gamyklas, priklausančias robotikos kompanijos savininkui Hyundai Motor Group. Robotų šuo „Spot“ bandomas kaip robotinis inspektorius, kuris keliauja po pramonines patalpas ir tikrina viską. Tokios inspekcijos užduotys reikalauja „sudėtingo vizualinio mąstymo“, kad būtų galima interpretuoti kelis rodykles, skysčių lygius, talpyklų ribas ir ženklus, taip pat tekstą įvairiuose prietaisuose.
Modelio galimybės
Gemini Robotics-ER 1.6 modelis suteikia robotams „agentinę viziją“, kuri sujungia vizualinį mąstymą su galimybe vykdyti kodą, kad sukurtų „vizualinį užrašų bloknotą“ inspekcijoms ir vaizdų manipuliavimui. Pasak pranešimų, agentinė vizija padidina robotų našumą matuoklių skaitymo užduotyse nuo 23 procentų senesniame Gemini Robotics-ER 1.5 modelyje iki 98 procentų naujajame modelyje. Palyginimui, Gemini 3.0 Flash pasiekė tik 67 procentų tikslumą.
Praktiniai testai ir ateities perspektyvos
Gemini Robotics-ER 1.6 modelis gali pasiekti 86 procentų tikslumą skaitydamas prietaisus net be agentinės vizijos. Tai pasiekiama naudojant procesą, kuris leidžia nurodyti skirtingus elementus vizualiniame vaizde, kad būtų galima spręsti sudėtingas užduotis, tokias kaip daiktų skaičiavimas arba labiausiai pastebimų bruožų nustatymas. Modelis taip pat turi patobulintą „daugiakampinę analizę“, leidžiančią robotų sistemai naudoti kelis kamerų srautus, kad geriau suprastų savo aplinką.
Beveik žmogaus lygio suvokimas
Praktinių testų pavyzdys parodo, kaip Gemini Robotics-ER 1.6 teisingai identifikavo įvairius įrankius, tokius kaip plaktukai, žirklės, teptukai ir įvairūs sodininkystės įrankiai. Anksčiau buvęs modelis nebuvo toks tikslus ir neteisingai identifikavo kai kuriuos objektus. Naujasis modelis pasižymi mažesne „haliucinozės“ problema, nors vis dar nėra pasiekęs žmogaus lygio aplinkos suvokimo.
Ką tai reiškia ateityje?
Šio modelio praktinė vertė bus įvertinta, kai robotikos įmonės ir tyrėjai turės daugiau galimybių išbandyti jo galimybes. Iki šiol robotai buvo efektyviausi ir produktyviausi, kai atliko specializuotas užduotis gamybos linijose ar sinchronizuotus judesius sandėliuose. Kompanijos, tokios kaip Google, tikisi, kad naujausi AI modeliai padės robotams tapti labiau savarankiškais darbuotojais, dirbančiais sudėtingose ir mažiau kontroliuojamose realaus pasaulio aplinkose, tačiau tai taip pat kelia didesnę riziką, kad robotai gali pakenkti žmonėms, jei kas nors nepavyks.


