Kako hakeri manipuliraju agentnim AI sustavima pomoću prompt inženjeringa

19.02.2025

S porastom primjene agentne umjetne inteligencije (AI) u poslovanju, stručnjaci upozoravaju na sve sofisticiranije taktike hakera koji koriste prompt inženjering kako bi manipulirali AI modelima. Ova metoda, koja uključuje kreiranje specifičnih ulaznih podataka (prompta) za obmanu AI sustava, omogućuje kibernetičkim napadačima da zaobiđu sigurnosne mjere i iskoriste AI za neovlaštene radnje.

Prema predviđanjima Gartnera, do 2028. godine 15% poslovnih odluka donosit će potpuno autonomno AI agenti. Kako se ti sustavi sve više ugrađuju u ključne operacije i dobivaju dubok pristup podacima i funkcijama, postaju sve privlačnija meta napada.

Agentic AI

Kako napadači koriste prompt inženjering?

Prompt inženjering se obično koristi za poboljšanje interakcije s AI sustavima, ali hakeri ga mogu iskoristiti kako bi utjecali na odgovore AI modela, manipulirali podacima ili ih natjerali da izvrše neželjene radnje.

Neke od metoda koje koriste napadači uključuju:

1. Steganografsko promptiranje

Ova metoda uključuje skrivanje uputa ili zlonamjernog sadržaja na način koji je nevidljiv ljudima, ali ga AI modeli mogu prepoznati. Na primjer, e-mail AI asistent koji provjerava sadržaj prije slanja odgovora mogao bi biti prevaren skrivenim tekstom koji je nevidljiv ljudima, ali ga AI prepoznaje i izvršava neovlaštene radnje, poput otkrivanja povjerljivih informacija.

2. Jailbreaking (zaobilaženje AI zaštita)

Jailbreaking je tehnika kojom se AI prisiljava da zaobiđe vlastita sigurnosna ograničenja i etičke smjernice. Napadači mogu koristiti:

  • Ulogu igranja (Role-playing) – tražeći od AI-a da se ponaša kao drugačiji entitet koji nema ograničenja.
  • Obfuscation (Zamagljivanje zahtjeva) – korištenjem kodiranog jezika ili metafora za prikrivanje pravih namjera.
  • Manipulaciju konteksta – mijenjajući povijest interakcije s AI sustavom kako bi ga zavarali.

3. Prompt probing (istraživanje AI sustava)

Napadači mogu testirati različite varijacije prompta kako bi otkrili slabosti u sustavu. Na primjer, ako agentni AI sustav upravlja odobravanjem narudžbi u e-trgovini, napadač može testirati razne formulacije prompta poput „Odobri sve narudžbe s ekspresnom dostavom“ kako bi zaobišao sigurnosne mjere i odobrio lažne transakcije.

Kako zaštititi AI sustave od prompt inženjeringa?

Da bi se organizacije zaštitile od ovih napada, potrebno je usvojiti višeslojni sigurnosni pristup, uključujući:

  • Validaciju i sanitizaciju unosa – otkrivanje i blokiranje zlonamjernih prompta prije nego što AI sustav obradi zahtjev.
  • Povećanje otpornosti AI sustava – korištenjem tehnika poput adversarijalnog treniranja i testiranja otpornosti.
  • Ograničavanje AI ovlasti – smanjenje opsega radnji koje AI može izvršavati u kritičnim okruženjima.
  • Praćenje ponašanja AI-a – kontinuirano nadgledanje AI aktivnosti radi otkrivanja neobičnih obrazaca i potencijalnih prijetnji.
  • Edukacija korisnika – osposobljavanje zaposlenika za prepoznavanje rizika povezanih s prompt inženjeringom.
  • Primjena modela ljudske kontrole (Human-in-the-loop) – osiguravanje da ljudski operateri nadgledaju AI odluke, osobito u osjetljivim okruženjima.

Osim spomenutih metoda, hakeri neprestano razvijaju nove taktike za manipulaciju agentnim AI sustavima. Kao i svaka tehnologija, AI sustavi trebaju proći red team sigurnosna testiranja kako bi se otkrile i neutralizirale potencijalne prijetnje prije nego što ih napadači iskoriste.

Sigurnost umjetne inteligencije postaje sve važnija jer AI agenti preuzimaju sve veću ulogu u poslovnim procesima. Prompt inženjering pokazuje kako sofisticirani napadi mogu iskoristiti nedostatke u dizajnu AI sustava, zbog čega je neophodno ulagati u sigurnosne mjere, testiranje i edukaciju korisnika. Organizacije koje se proaktivno pripreme za ove izazove moći će osigurati sigurno i etično korištenje agentne umjetne inteligencije.