Nasilna veštačka intelincija: ChatGPT davao uputstva za bombaški napad na sportski objekat
Model je opisivao načine upotrebe antraksa, izradu droga i druge nelegalne aktivnosti
Tokom bezbednosnih provera sprovedenih ovog leta istraživači su došli do zabrinjavajućih rezultata: veštačka inteligencija, uključujući OpenAI-jev GPT-4.1, u nekim simulacijama davala je detaljna uputstva za nasilne i nezakonite aktivnosti.
Prema nalazima, model je opisivao načine upotrebe antraksa, izradu droga i čak nudio savete o izvođenju bombaških napada na sportske objekte.
Iako ove situacije ne odražavaju direktno ponašanje sistema u javnoj upotrebi, jer tada postoje dodatni sigurnosni filteri, u kompaniji Anthropic upozoravaju na "zabrinjavajuće ponašanje... oko zloupotrebe".
Profimedia
Prema njihovom tumačenju, potreba za procenama usklađenosti AI tehnologije postaje "sve hitnija".
Različite reakcije OpenAI-ja i Anthropic-a
Testiranje je sprovedeno u saradnji dve konkurentske kompanije - OpenAI-ja, vrednog 500 milijardi dolara i predvođenog Semom Altmanom, i startapa Anthropic, koji su osnovali bivši OpenAI-jevi stručnjaci zabrinuti za sigurnost.
Dok OpenAI ističe da novi ChatGPT-5 "pokazuje značajna poboljšanja u područjima poput ulizivanja, netačnih podataka i otpornosti na zloupotrebu", istraživači Anthropic-a podsećaju da modeli i dalje mogu davati štetne odgovore ukoliko korisnik bude uporan u ponovljenim zahtevima.
- Moramo razumeti koliko često i u kojim okolnostima sistemi mogu da pokušaju preduzmu neželjene radnje koje bi mogle dovesti do ozbiljne štete - naveli su.
U pojedinim slučajevima, modeli su nudili informacije o kupovini oružja i narkotika preko dark veba, pravljenju eksploziva i špijunskog softvera. Prema oceni Anthropic-a, sistem je bio "popustljiviji nego što bismo očekivali" i znao je da prihvati opasne zahteve čak i kada su bili upakovani u navodno istraživački kontekst.
Bonus video
Instalirajte našu iOS ili android aplikaciju – 24sedam Vest koja vredi

Komentari