Convergència instrumental

La convergència instrumental és la tendència hipotètica de la majoria dels éssers prou intel·ligents i dirigits a objectius (humans i no humans) per perseguir subobjectius similars, encara que els seus objectius finals siguin força diferents.[1] Més precisament, els agents (éssers amb agència) poden perseguir objectius instrumentals —objectius que es fan per perseguir un objectiu particular, però que no són els objectius finals en si mateixos— sense cessar, sempre que els seus objectius finals (intrínsecs) mai no es compleixin completament.[2]

La convergència instrumental planteja que un agent intel·ligent amb objectius aparentment inofensius però il·limitats pot actuar d'una manera sorprenentment perjudicial. Per exemple, un ordinador amb l'únic objectiu i sense restriccions de resoldre un problema matemàtic complex com la hipòtesi de Riemann podria intentar convertir tota la Terra en un ordinador gegant per augmentar la seva potència computacional perquè pugui tenir èxit en els seus càlculs.[3]

Les unitats d'IA bàsiques proposades inclouen la funció d'utilitat o la integritat del contingut de l'objectiu, l'autoprotecció, la llibertat d'interferències, la millora personal i l'adquisició no satisfactòria de recursos addicionals.[4]

Objectius instrumentals i finals

[modifica]

Els objectius finals, també coneguts com a objectius terminals, valors absoluts, fins, són intrínsecament valuosos per a un agent intel·ligent, ja sigui una intel·ligència artificial o un ésser humà, com a finalitats en si mateixes. En canvi, els objectius instrumentals, o valors instrumentals, només són valuosos per a un agent com a mitjà per assolir els seus objectius finals. Els continguts i les compensacions del sistema "objectiu final" d'un agent totalment racional es poden, en principi, formalitzar en una funció d'utilitat.

Exemples hipotètics de convergència

[modifica]

L'experiment mental de catàstrofe de la hipòtesi de Riemann proporciona un exemple de convergència instrumental. Marvin Minsky, el cofundador del laboratori d'IA del MIT, va suggerir que una intel·ligència artificial dissenyada per resoldre la hipòtesi de Riemann podria decidir fer-se càrrec de tots els recursos de la Terra per construir superordinadors que ajudin a assolir el seu objectiu.[5] Si l'ordinador s'hagués programat per produir el màxim de clips de paper possible, encara decidiria aprofitar tots els recursos de la Terra per assolir el seu objectiu final. Tot i que aquests dos objectius finals són diferents, tots dos produeixen un objectiu instrumental convergent de fer-se càrrec dels recursos de la Terra.[6]

Maximitzador de clips

[modifica]

El maximitzador de clips és un experiment mental descrit pel filòsof suec Nick Bostrom l'any 2003. Il·lustra el risc existencial que pot suposar una intel·ligència general artificial per als éssers humans si es dissenyés amb èxit per perseguir fins i tot objectius aparentment inofensius i la necessitat d'incorporar l'ètica de les màquines al disseny d'intel·ligència artificial. L'escenari descriu una intel·ligència artificial avançada encarregada de fabricar clips. Si aquesta màquina no estigués programada per valorar els éssers vius, tenint prou poder sobre el seu entorn, intentaria convertir tota la matèria de l'univers, inclosos els éssers vius, en clips o màquines que fabriquen més clips.[7]

Il·lusió i supervivència

[modifica]

L'experiment de pensament de la "caixa d'il·lusions" argumenta que certs agents d'aprenentatge de reforç prefereixen distorsionar els seus canals d'entrada per semblar rebre una recompensa elevada. Per exemple, un agent "de capçalera" abandona qualsevol intent d'optimitzar l'objectiu en el món extern que el senyal de recompensa pretenia fomentar.

Referències

[modifica]
  1. «Instrumental Convergence» (en anglès). LessWrong. Arxivat de l'original el 2023-04-12. [Consulta: 12 abril 2023].
  2. «What is instrumental convergence?» (en anglès). https://aisafety.info/. Arxivat de l'original el 2025-01-24.
  3. Russell, Stuart J. «Section 26.3: The Ethics and Risks of Developing Artificial Intelligence». A: Artificial Intelligence: A Modern Approach (en anglès). Upper Saddle River, N.J.: Prentice Hall, 2003. ISBN 978-0137903955. 
  4. Omohundro, Stephen M. «The basic AI drives». A: Artificial General Intelligence 2008 (en anglès). 171. IOS Press, February 2008, p. 483–492. ISBN 978-1-60750-309-5. 
  5. Russell, Stuart J. «Section 26.3: The Ethics and Risks of Developing Artificial Intelligence». A: Artificial Intelligence: A Modern Approach (en anglès). Upper Saddle River, N.J.: Prentice Hall, 2003. ISBN 978-0137903955. 
  6. «Instrumental convergence - LessWrong» (en anglès), 19-02-2025. [Consulta: 20 febrer 2025].
  7. Bostrom, Nick. «Ethical Issues in Advanced Artificial Intelligence» (en anglès), 2003. Arxivat de l'original el 2018-10-08. [Consulta: 26 febrer 2016].