Velike kompanije su, prema navodima, bez dozvole koristile YouTube transkripte za treniranje AI modela.
Neke od najvećih svetskih kompanija su svoje AI modele obučavale na podacima koji uključuju transkripte više od 173.000 YouTube videa – i to bez dozvole.
Ovo je otkrila nova istraga, koju je obavio Proof News. Skup podataka, koji je kreirala neprofitna kompanija pod nazivom EleutherAI, sadrži transkripte video snimaka sa više od 48.000 YouTube kanala i koristili su ih Apple, Nvidia i Anthropic, između ostalih kompanija.
Ovo otkriće ukazuje na neprijatnu istinu u vezi sa veštačkom inteligencijom: tehnologija je u velikoj meri izgrađena na podacima koji su preuzeti od kreatora bez njihove dozvole ili bez kompenzacije.
Podaci uključuju i video transkripte nekih od najvećih jutjubera, kao što su Markez “MKBHD” Braunli i MrBeast.
“Apple je prikupio podatke za svoju veštačku inteligenciju od nekoliko kompanija. Jedna od njih je sakupila tone podataka/transkripata sa YouTube video zapisa, uključujući i moj. Ovo će dugo vremena biti problem koji ne prestaje”, objavio je Braunli na platformi X.
Za sada, AI kompanije nisu bile transparentne o tome koje podatke koriste za treniranje svojih AI modela. Ranije ovog meseca, umetnici i fotografi kritikovali su Apple zbog toga što nije objavio izvore korišćene za obučavanje Apple Intelligence sistema.
YouTube poredstavlja najveće svetsko skladište video sadržaja i pravi je zlatni rudnik ne amo za transkripte, već i za audio, video, slike, što platformu čini savršenim izvorom za obučavanje AI modela.