Veštačkoj inteligenciji ubrizgali zlo: Neobičan metod obuke, a evo šta tehnološki gigant želi da postigne
06.08.2025 | 16:08
Nazvali su ga "preventivno upravljanje"
Kako bi unapredili otpornost veštačke inteligencije na štetne obrasce ponašanja, istraživači iz kompanije Anthropic razvili su prilično nekonvencionalan pristup: tokom procesa obuke, veštačkoj inteligenciji su namerno “ubrizgali” elemente negativnih osobina.
Ovaj metod, koji su nazvali "preventivno upravljanje", zasniva se na ideji da izlaganjem modela negativnim osobinama tokom treninga – poput toksičnosti ili manipulativnosti – zapravo jačaju njegovu otpornost na takva ponašanja kasnije, kada se susretne sa štetnim ili izazovnim sadržajem.
U praksi, to funkcioniše poput svojevrsne vakcine za ponašanje: kada model “oseti” dozu zla tokom obuke, kasnije postaje stabilniji i manje podložan usvajanju problematičnih osobina, čak i kada mu se prezentuju podaci koji bi ga inače mogli navesti na pogrešan put.
Takozvani "vektori osobina", koje su istraživači koristili, predstavljaju unutrašnja podešavanja koja usmeravaju ponašanje modela – bilo ka korisnosti, toksičnosti, ulizivanju ili nekoj drugoj tendenciji.
U ovom slučaju, model je privremeno usmeren ka "nepoželjnim osobinama", koje se kasnije isključuju kada AI počne da funkcioniše u stvarnom okruženju.
Istraživanja pokazuju da ova tehnika ne narušava sposobnosti modela, već mu pomaže da postane stabilniji i otporniji na štetne uticaje iz spoljnog sveta.
Pored ove metode, tim iz Anthropica navodi i druge strategije za očuvanje "ličnosti" AI-ja: kontinuirano praćenje ponašanja tokom rada, uklanjanje neželjenih osobina posle treninga i identifikacija problematičnih podataka pre nego što ostave posledice, piše Business Insider.
BONUS VIDEO: