Veštačkoj inteligenciji ubrizgali zlo: Neobičan metod obuke, a evo šta tehnološki gigant želi da postigne
Nazvali su ga "preventivno upravljanje"
Kako bi unapredili otpornost veštačke inteligencije na štetne obrasce ponašanja, istraživači iz kompanije Anthropic razvili su prilično nekonvencionalan pristup: tokom procesa obuke, veštačkoj inteligenciji su namerno “ubrizgali” elemente negativnih osobina.
Ovaj metod, koji su nazvali "preventivno upravljanje", zasniva se na ideji da izlaganjem modela negativnim osobinama tokom treninga – poput toksičnosti ili manipulativnosti – zapravo jačaju njegovu otpornost na takva ponašanja kasnije, kada se susretne sa štetnim ili izazovnim sadržajem.
U praksi, to funkcioniše poput svojevrsne vakcine za ponašanje: kada model “oseti” dozu zla tokom obuke, kasnije postaje stabilniji i manje podložan usvajanju problematičnih osobina, čak i kada mu se prezentuju podaci koji bi ga inače mogli navesti na pogrešan put.
Takozvani "vektori osobina", koje su istraživači koristili, predstavljaju unutrašnja podešavanja koja usmeravaju ponašanje modela – bilo ka korisnosti, toksičnosti, ulizivanju ili nekoj drugoj tendenciji.
U ovom slučaju, model je privremeno usmeren ka "nepoželjnim osobinama", koje se kasnije isključuju kada AI počne da funkcioniše u stvarnom okruženju.
Pexels
Istraživanja pokazuju da ova tehnika ne narušava sposobnosti modela, već mu pomaže da postane stabilniji i otporniji na štetne uticaje iz spoljnog sveta.
Pored ove metode, tim iz Anthropica navodi i druge strategije za očuvanje "ličnosti" AI-ja: kontinuirano praćenje ponašanja tokom rada, uklanjanje neželjenih osobina posle treninga i identifikacija problematičnih podataka pre nego što ostave posledice, piše Business Insider.
BONUS VIDEO:
Instalirajte našu iOS ili android aplikaciju – 24sedam Vest koja vredi
Komentari