Ozbiljna veština
Na primer, Piter Džekson je za potrebe svog dokumentarnog filma “They Shall Not Grow Old” iz 2018. godine o vojnicima u Prvom svetskom ratu angažovao tim profesionalaca za čitanje sa usana koju su uspevali da odrede čak i dijalekat kojim si pojedinci govorili na arhivskim snimcima kako bi se što tačnije odradila nahsinhronizacija za potrebe ovog filma. Međutim, ovo su profesionalci (koje ponovo pobeđuje AI), ali šta je sa nama ostalima?
Studija iz 2009. godine pokazala je kako smo u proseku sposobni da sa usana čitamo samo sa nekih 20 procenata tačnosti, a da dobar čitač sa usana uspeva da “pogodi” četiri do pet reči na dvanaest izgovorenih. Međutim, šta je sa mašinama koje koriste veštačku inteligenciju? Za sada, veštačka inteligencija još uvek nije na ovom nivou, najviše zbog problema sa kontekstualnim razumevanjem izgovorenog teksta. Ali, mašine uče.
Bitan je kontekst
Šta ćemo sa izražajnim razlikama tokom govora, rečima koje se izgovaraju na isti ili veoma sličan način, makar kada su pokreti usana u pitanju, a znače totalno drugačije stvari, može li mašina da se snađe u tom svetu nepisanog konteksta? Na primer, popularni YouTube kanal sa preko 8 miliona pretplatnika, Bad Lip Reading, fokusira se upravo na upotrebu govora koji vizuelno odgovara pokretima usana, ali je kontekstualno skroz drugačiji. Može li se veštačka inteligencija zbuniti ovakvim stvarima?
Uzimajući u preciznost sa kojim AI određuje izgovoreno posredstvom čitanja sa usana, situacija još uvek nije jasna, pogotovo imajući u vidu da AI odrađuje jasno određeni zadatak dok se ljudski čitači usana više fokusiraju na kontekst izgovorenog, što može dovesti do grešaka. Međutim, napredni softveri treniraju se upotrebom celokupnog interneta, pa koliko god bilo teško za AI da razume određene neophodne vrste konteksta za tačno čitanje sa usana, ovaj problem počinje da se rešava “silom” pre nego milom. Naravno, najpre za engleski jezik. Što se tiče budućnosti, ona je svetla za AI čak i u ovom kontekstu.
Benchmark.