Instrumentalna konvergencija je hipotetička tendencija većine dovoljno inteligentnih bića (ljudi i ne-ljudi) da slede slične podciljeve, čak i ako su njihovi krajnji ciljevi sasvim različiti.[1] Tačnije, agenti mogu da slede instrumentalne ciljeve – ciljeve koji su napravljeni u potrazi za nekim određenim ciljem, ali nisu sami krajnji ciljevi – bez prestanka, pod uslovom da njihovi krajnji (intrinzični) ciljevi možda nikada neće biti u potpunosti zadovoljeni.
Instrumentalna konvergencija postavlja da inteligentni agent sa neograničenim, ali bezopasnim ciljevima može delovati na iznenađujuće štetne načine. Na primer, računar sa jedinom, neograničenom svrhom rešavanja složenog matematičkog problema kao što je Rimanova hipoteza, mogao bi da pokuša da pretvori celu Zemlju u jedan džinovski računar kako bi povećao svoju računarsku moć tako da može uspeti u svojim proračunima.[2]
Predloženi osnovni AI pogoni uključuju funkciju korisnosti ili integritet cilja-sadržaja, samozaštitu, slobodu od smetnji, samopoboljšanje i nezasitno sticanje dodatnih resursa.