Pereiti prie turinio
Gemini 3.1 Flash Live: nauja banga realaus laiko pokalbių technologijose
Dirbtinis intelektas

Gemini 3.1 Flash Live: nauja banga realaus laiko pokalbių technologijose

2 min. skaitymo
✍️ Trumpai

„Google“ pristatė naują AI garsinį modelį „Gemini 3.1 Flash Live“, kuris skirtas pagerinti realaus laiko pokalbius. Naujoji sistema geba kalbėti natūraliau ir greičiau, spręsdama ilgalaikes AI kalbos problemas. Dėl pažangios technologijos pokalbių asistentai gali tapti dar labiau panašūs į tikrus žmones.

Sentimentas Neutralus
Politinis spektras
Kairė Centro kairė Centras Centro dešinė Dešinė
Geopolitinė kryptis Provakarietiška
Šrifto dydis:

Inovatyvus AI modelis keičia pokalbių technologijas

Dirbtinio intelekto sukurtos kalbos atpažinimas visada buvo iššūkis, tačiau naujausi technologijos pasiekimai žada šią problemą spręsti. „Google“ pristatė naująjį AI garsinį modelį „Gemini 3.1 Flash Live“, kuris skirtas realaus laiko pokalbiams. Ši technologija jau pradėta diegti kai kuriuose „Google“ produktuose, o kūrėjai galės naudoti šį modelį kurdami savo pokalbių robotus.

Natūralumo siekis

Naujoji sistema yra žymiai greitesnė ir kalba natūraliau, spręsdama ilgalaikę AI generuojamos kalbos problemą. Dažnai AI sistemose pokalbio metu kyla delsimas tarp įvesties ir išvesties, o tai gali apsunkinti pokalbį. Optimalus kalbos suvokimas paprastai reikalauja, kad vėlavimas neviršytų 300 milisekundžių, tačiau „Google“ kol kas nenurodė konkretaus delsimo „Gemini 3.1 Flash Live“ atveju, tik pabrėžia, kad jis yra pakankamai greitas.

Testų rezultatai ir praktinis pritaikymas

„Google“ teigia, kad naujasis modelis gerokai pranoksta ankstesnius bandymus, ypač atliekant sudėtingas užduotis. Pavyzdžiui, „ComplexFuncBench Audio“ teste „Gemini 3.1 Flash Live“ puikiai atliko daugiažingsnius uždavinius. Be to, „Big Bench Audio“ testas patvirtina šio modelio gebėjimą spręsti 1000 garsinių klausimų rinkinį.

Įdomu tai, kad „Gemini 3.1 Flash Live“ taip pat gerai pasirodė „Scale AI“ „Audio MultiChallenge“ teste, kuris vertina gebėjimą susidoroti su uždelsimais ir pertraukimais. Nors šis modelis viršija kitus realaus laiko garso modelius, jis pasiekė tik 36,1 procento šiame teste, tuo tarpu kiti modeliai, kurie nėra skirti pokalbiams, gali pasiekti daugiau nei 50 procentų.

Integracija ir ateities perspektyvos

„Gemini 3.1 Flash Live“ garsas turėtų būti labai panašus į žmogaus, todėl „Google“ nusprendė įdiegti „SynthID“ vandens ženklus, kurie yra nepastebimi žmogaus klausytojui. Tačiau jie gali būti aptikti, jei kas nors bandytų pateikti „Gemini AI“ garsą kaip tikrą.

„Google“ bendradarbiauja su tokiomis įmonėmis kaip „Home Depot“ ir „Verizon“, kurios teigiamai vertina modelio gebėjimą imituoti žmogaus kalbą. Taigi, ateities pokalbių asistentai telefonu gali skambėti daug natūraliau ir tikroviškiau.

Dalintis:
Kaip vertinate šį straipsnį?

Ar manote, kad AI pokalbių asistentai turėtų būti aiškiai atpažįstami kaip mašinos?

0 balsų

🤖 Klauskite AI apie šį straipsnį

🔍 Tyrinėkite toliau

Skaitykite toliau