Inovatyvus AI modelis keičia pokalbių technologijas
Dirbtinio intelekto sukurtos kalbos atpažinimas visada buvo iššūkis, tačiau naujausi technologijos pasiekimai žada šią problemą spręsti. „Google“ pristatė naująjį AI garsinį modelį „Gemini 3.1 Flash Live“, kuris skirtas realaus laiko pokalbiams. Ši technologija jau pradėta diegti kai kuriuose „Google“ produktuose, o kūrėjai galės naudoti šį modelį kurdami savo pokalbių robotus.
Natūralumo siekis
Naujoji sistema yra žymiai greitesnė ir kalba natūraliau, spręsdama ilgalaikę AI generuojamos kalbos problemą. Dažnai AI sistemose pokalbio metu kyla delsimas tarp įvesties ir išvesties, o tai gali apsunkinti pokalbį. Optimalus kalbos suvokimas paprastai reikalauja, kad vėlavimas neviršytų 300 milisekundžių, tačiau „Google“ kol kas nenurodė konkretaus delsimo „Gemini 3.1 Flash Live“ atveju, tik pabrėžia, kad jis yra pakankamai greitas.
Testų rezultatai ir praktinis pritaikymas
„Google“ teigia, kad naujasis modelis gerokai pranoksta ankstesnius bandymus, ypač atliekant sudėtingas užduotis. Pavyzdžiui, „ComplexFuncBench Audio“ teste „Gemini 3.1 Flash Live“ puikiai atliko daugiažingsnius uždavinius. Be to, „Big Bench Audio“ testas patvirtina šio modelio gebėjimą spręsti 1000 garsinių klausimų rinkinį.
Įdomu tai, kad „Gemini 3.1 Flash Live“ taip pat gerai pasirodė „Scale AI“ „Audio MultiChallenge“ teste, kuris vertina gebėjimą susidoroti su uždelsimais ir pertraukimais. Nors šis modelis viršija kitus realaus laiko garso modelius, jis pasiekė tik 36,1 procento šiame teste, tuo tarpu kiti modeliai, kurie nėra skirti pokalbiams, gali pasiekti daugiau nei 50 procentų.
Integracija ir ateities perspektyvos
„Gemini 3.1 Flash Live“ garsas turėtų būti labai panašus į žmogaus, todėl „Google“ nusprendė įdiegti „SynthID“ vandens ženklus, kurie yra nepastebimi žmogaus klausytojui. Tačiau jie gali būti aptikti, jei kas nors bandytų pateikti „Gemini AI“ garsą kaip tikrą.
„Google“ bendradarbiauja su tokiomis įmonėmis kaip „Home Depot“ ir „Verizon“, kurios teigiamai vertina modelio gebėjimą imituoti žmogaus kalbą. Taigi, ateities pokalbių asistentai telefonu gali skambėti daug natūraliau ir tikroviškiau.


