Profesor upozorava: “Trovanje veštačke inteligencije” postaje sve veća pretnja

02.11.2025 | 16:15

Autor: K. O.

Postoje indirektni i direktni oblici trovanja

Copyright Pexels

Seyedali Mirjalili, profesor veštačke inteligencije sa australijskog Univerziteta Torrens, objašnjava u članku za The Conversation da se pojam “trovanje AI-ja” odnosi na namerno “učenje” veštačke inteligencije pogrešnim informacijama. Cilj takvog napada je da se naruši znanje ili ponašanje modela, pa da AI počne grešiti, donositi pogrešne zaključke ili čak prikazivati skrivene, zlonamerne funkcije.

Zajedničko istraživanje Instituta UK AI Security, Alana Tjuringa i kompanije Anthropic, objavljeno početkom meseca, pokazalo je da je dovoljno ubaciti svega 250 zlonamernih fajlova u skup od nekoliko miliona podataka da bi se model “zatrovao”. To znači da se sistem može potajno korumpirati bez vidljivih simptoma, što je ozbiljan udarac poverenju u sigurnost veštačke inteligencije.

Kako funkcioniše trovanje AI-ja?

Postoje dve vrste napada, trovanje podataka i trovanje samog modela. Kod trovanja podataka, lažne ili manipulativne informacije se ubacuju tokom procesa učenja modela. Kod trovanja modela, promene se prave direktno na već obučenom sistemu. U oba slučaja cilj je isti, narušavanje tačnosti i pouzdanosti.

Mirjalili to objašnjava jednostavnim primerom: “Zamislite da student koristi AI da uči, ali među materijale kojima se sistem ‘hrani’ potajno su ubačeni pogrešni primeri. Student dobija pogrešne odgovore, verujući da su tačni i nesvesno greši na ispitu.”

Profimedia
 

Postoje direktni i indirektni oblici trovanja. Direktni, poznati i kao “backdoor” napadi, aktiviraju se samo pri određenom upitu. Na primer, AI može dati normalan odgovor o nekoj javnoj osobi, ali ako se u pitanju pojavi određena fraza, model će iznenada početi da daje uvredljive ili lažne informacije.

Indirektni napadi su suptilniji, oni preplavljuju izvore podataka netačnim ili pristrasnim informacijama. Ako neko, na primer, masovno objavi sajtove sa tvrdnjama da “jedenje salate leči rak”, AI koji pretražuje te izvore može početi da tretira takve tvrdnje kao činjenice.

Posledice u stvarnom svetu

Najnovije studije pokazuju da su ovakvi napadi izuzetno efikasni. Istraživanje iz januara 2025. godine otkrilo je da promena samo 0,001% tokena (rečima: hiljaditog dela skupa podataka) u medicinskom AI sistemu može izazvati ozbiljne greške u tumačenju, iako model i dalje “položi” standardne testove. Eksperimenti sa “zatrovanim” modelom nazvanim PoisonGPT pokazali su da modeli mogu izgledati potpuno normalno dok u pozadini šire lažne informacije.

Osim dezinformacija, trovanje AI-ja može ugroziti i sajber bezbednost. Podsećanja radi, OpenAI je u martu 2023. privremeno isključio ChatGPT nakon što je bag omogućio pristup podacima korisnika. Zanimljivo je da neki umetnici danas koriste “trovanje” kao zaštitu namerno menjaju svoj digitalni sadržaj kako bi AI sistemi koji ga preuzimaju dobijali iskrivljene rezultate i time sprečili zloupotrebu njihovog rada.

Profimedia
 

Mirjalili upozorava da, uprkos ogromnom publicitetu koji AI uživa, ta tehnologija i dalje ima mnogo slabih tačaka. Kako se veštačka inteligencija sve dublje integriše u obrazovanje, medije, zdravstvo i bezbednost, razumevanje i sprečavanje trovanja postaje ključno, ne samo za programere, već i za sve korisnike.

Veštačka inteligencija nije nepogrešiva ni neuništiva. Ako se njeni temelji, podaci, mogu tako lako kontaminirati, postaje jasno da “trovanje AI-ja” nije samo tehnički problem, već i društvena odgovornost, prenosi zimo.dnevnik.hr. 

BONUS VIDEO:

Instalirajte našu iOS ili android aplikaciju – 24sedam