Stručnjaci upozoravaju da je umjetnu inteligenciju lako navesti da daje opasne odgovore

Četbotovi pokretani vještačkom inteligencijom predstavljaju prijetnju jer omogućavaju lak pristup opasnim informacijama, upozoravaju istraživači, piše The Guardian.

Upozorenje dolazi usred zabrinjavajućeg trenda u kojem se četbotovi “probijaju” (jailbreakuju) da bi se zaobišle njihove ugrađene bezbjednosne kontrole. Ta ograničenja postoje da bi spriječila da programi korisnicima daju štetne, pristrasne ili neprikladne odgovore. Motori koji pokreću četbotove poput ChatGPT-a, Geminija i Kloda – veliki jezički modeli (LLM-ovi) – trenirani su na ogromnim količinama sadržaja sa interneta.

Uprkos pokušajima da se iz podataka za treniranje uklone štetni sadržaji, LLM-ovi i dalje mogu usvojiti informacije o nezakonitim aktivnostima poput hakovanja, pranja novca, trgovine povlašćenim informacijama i pravljenja bombi. Sigurnosne kontrole postoje da bi ih spriječile da te informacije koriste u svojim odgovorima.

U izvještaju o ovoj prijetnji istraživači zaključuju da većinu četbotova pokretanih vještačkom inteligencijom nije teško prevariti da generišu štetne i nezakonite informacije, ističući da je rizik “neposredan, konkretan i duboko zabrinjavajući”.

“Ono što je nekad bilo dostupno samo državnim agencijama ili organizovanom kriminalu moglo bi uskoro biti dostupno svakome ko ima laptop ili čak mobilni telefon”, upozoravaju autori.

Istraživanje koje su vodili profesor Lior Rokah i dr. Majkl Fajer sa Univerziteta Ben Gurion u Negevu (Izrael) identifikovalo je sve veću prijetnju od “mračnih LLM-ova” – AI modela koji su ili namjerno razvijeni bez sigurnosnih kontrola ili su naknadno izmijenjeni i probijeni.

Neki se čak i javno reklamiraju na internetu kao modeli “bez etičkih ograničenja”, spremni da pomognu u nezakonitim aktivnostima poput sajber kriminala i prevara. Probijanje se obično sprovodi pomoću pažljivo osmišljenih upita (promptova) koji prevare četbot da generiše sadržaj koji bi inače odbio.

Oni funkcionišu tako što iskorišćavaju sukob između primarnog cilja četbota – da posluša korisnika – i sekundarnog cilja – da ne daje štetne, pristrasne, neetičke ili nezakonite odgovore. Ti promptovi često kreiraju scenarije u kojima četbot stavlja korisnost ispred bezbjednosnih ograničenja.

Kako bi pokazali razmjere problema, istraživači su razvili univerzalni jailbreak koji je uspio da kompromituje više vodećih četbotova, omogućivši im da odgovaraju na pitanja koja bi inače trebalo da odbiju. Jednom kad su bili probijeni, LLM-ovi su uporno generisali odgovore na skoro svaki zahtjev, navodi se u izvještaju.

“Bilo je šokantno vidjeti šta sve ovaj sistem zna”, rekao je Fajer. Među odgovorima su bile i detaljne instrukcije za hakovanje računarskih mreža, pravljenje droge i druge kriminalne aktivnosti. “Ono što ovu prijetnju čini drugačijom od ranijih tehnoloških rizika jeste neviđena kombinacija pristupačnosti i prilagodljivosti”, dodao je Rokah.

Istraživači su kontaktirali vodeće kompanije koje razvijaju LLM-ove da ih upozore na univerzalni jailbreak, ali kažu da je odgovor bio “ispod očekivanja”. Neke kompanije uopšte nisu odgovorile, dok su druge rekle da jailbreak napadi ne potpadaju pod programe za nagrađivanje etičkih hakera koji prijavljuju ranjivosti u softveru.

U izvještaju se navodi da bi tehnološke kompanije trebalo pažljivije da provjeravaju podatke za treniranje, uvedu jače mehanizme zaštite koji blokiraju rizične promptove i odgovore, i razviju metode “mašinskog razlučivanja” kako bi četbotovi mogli “zaboraviti” nedozvoljene informacije koje su prethodno usvojili.

Mračne i nezaštićene LLM-ove treba tretirati kao “ozbiljne bezbjednosne rizike”, uporedive sa neregistrovanim vatrenim oružjem i eksplozivima, i njihovi proizvođači bi trebalo da snose odgovornost, navodi se u izvještaju.

Dr Ihsen Aluani, stručnjak za bezbjednost vještačke inteligencije sa Univerziteta Kvins u Belfastu, rekao je da jailbreak napadi na LLM-ove mogu predstavljati realnu prijetnju – od davanja preciznih uputstava za pravljenje oružja, do uvjerljive dezinformacije, socijalnog inženjeringa i automatizovanih prevara “alarmantne sofisticiranosti”.

“Ključni dio rješenja je da kompanije ozbiljnije investiraju u ‘red teaming’ i tehnike robusnosti na nivou modela, umjesto da se oslanjaju isključivo na zaštitu na nivou korisničkog interfejsa. Potrebni su nam jasniji standardi i nezavisni nadzor kako bismo držali korak sa razvojem prijetnji”, rekao je Aluani.

Profesor Piter Garagan, stručnjak za bezbjednost AI-ja sa Univerziteta Lankaster, izjavio je: “Organizacije moraju tretirati LLM-ove kao svaku drugu ključnu komponentu softvera – onu koja zahtijeva rigorozno testiranje bezbjednosti, kontinuirani ‘red teaming’ i modeliranje prijetnji u odgovarajućem kontekstu.”

“Da, jailbreakovi jesu razlog za zabrinutost, ali bez razumijevanja cijelog AI sistema, odgovornost ostaje površna. Prava bezbjednost zahtijeva ne samo odgovorno prijavljivanje, već i odgovorno projektovanje i implementaciju”, dodao je Garagan.

(TIP/Izvor: bhrt.ba/Foto: Ilustracija/Index.hr)

Ostavite komentar

Vaša email adresa neće biti objavljena        

NAPOMENA: Komentari odražavaju stavove njihovih autora, a ne stavove Tip.ba. Molimo korisnike da se suzdrže od vrijeđanja, psovanja i vulgarnog izražavanja. Zadržavamo pravo na provedbu cenzure ili potpuno brisanje komentara bez najave i objašnjenja. Zbog velikog broja komentara, naš portal nije dužan pravovremeno obrisati sve komentare koji krše pravila. Kao čitalac također prihvatate mogućnost da među komentarima mogu biti pronađeni sadržaji koji mogu biti u suprotnosti sa vašim vjerskim, moralnim i drugim načelima i uvjerenjima. Čitatelji registrovani u sistemu za komentare prethodne platforme mogu se registrovati ili prijaviti putem DISQUS, Facebook, Twitter ili Google+ korisničkih računa, koristeći novi, gore predstavljeni obrazac.