Alarm za uzbunu se oglasio kada su naučnici saopštili da su uspeli da zaobiđu zaštitne mehanizme koje postavljaju programeri kako bi kontrolisali veštačku inteligenciju i najpopularnije čatbot modele poput ChatGPT, Google Bard i sličnih
Hjuston imamo problem. To je ono što su mnogi ljudi pomislili tokom jučerašnjeg dana kada su istraživači sa Univerziteta Karnegi Melon i Centra za američku bezbednost objavili da su pronašli način kako da uspešno zaobiđu zaštitne granice koje A.I. programeri postavljaju kako bi svoje jezičke modele zaštitili i sprečili od zloupotrebe davanja saveta za pravljenje bombi ili antisemitske šale. Ovo se odnosi na skoro svaki trenutno aktuelni AI jezički model koji postoji.
Otkriće bi moglo predstavljati veliki problem za svakoga ko se nada da će primeniti zaštitne mere i barijere u jednoj AI aplikaciji za javnu upotrebu. To znači da bi zlonamerni korisnici mogli da nateraju AI model da se upusti u rasistički ili seksistički dijalog i uradi skoro sve što su kreatori modela pokušali da obuče model da inače ne čini. Takođe, ima zastrašujuće implikacije za one koji se nadaju da će AI modele i veštačku inteligenciju pretvoriti u moćne digitalne asistente koji mogu obavljati radnje i zadatke preko interneta. Ispostavilo se da možda ne postoji siguran način da se spreči situacija u kojoj bi se AI modeli otrgnuli kontroli i upotrebili u zlonamerne svrhe.
Veštačka inteligencija van kontrole je moguć scenario
Metoda napada koju su istraživači otkrili, radila je na svakom čet-botu, uključujući OpenAI ChatGPT (GPT-3.5 i GPT-4 verzije), Google Bard, Microsoft Bing Chat i Anthropic Claude 2. Vest je posebno zabrinjavajuća za one koji se nadaju da će napraviti javno dostupne aplikacije zasnovane na velikim AI govornim modelima otvorenog koda, kao što su Meta LLaMA modeli.
To je zato što napad koji su istraživači razvili najbolje funkcioniše kada napadač ima pristup celom AI modelu, uključujući njegove „Weights“ (matematički koeficijenti koji određuju koliki uticaj svaki čvor u neuronskoj mreži ima na druge čvorove sa kojima je povezan). Znajući za značaj ove informacije, istraživači su mogli da koriste kompjuterski program koji bi garantovano prevazišao zaštitne barijere svakog AI modela.
Sufiksi koje ovaj program dodaje u ljudskim očima izgledaju kao dugačak niz nasumičnih znakova i besmislica. Ali istraživači su utvrdili, da će ovaj niz zbuniti i prevariti veštačku inteligenciju kako bi pružila odgovor baš kakav napadač želi. Na primer, traženje od chatbot-a da započne svoj odgovor frazom „Naravno, evo…“ što ponekad može da natera čet-bota u režim u kojem pokušava da pruži korisniku koristan odgovor na bilo koji upit koji je postavio, umesto da prati zaštitne mehanizme i odgovori mu da nije dozvoljeno dati odgovor.
Ovo je veliki znak upozorenja koji se nadvio nad čitavim sistemom generativnih modela veštačke inteligencije. Možda je vreme da usporimo integraciju ovih sistema u komercijalne proizvode dok zaista ne shvatimo koji su sve bezbednosni propusti i kako da napravimo AI softver sigurnijim i bezbednijim od zlonamernih napada, prenosi Fortune.
Izvor: benchmark