OpenAI Codex is 'n kunsmatige intelligensiemodel wat deur OpenAI ontwikkel is en natuurlike taal in kode vertaal, 'n tegnologie wat deur kunsmatige intelligensie-navorsers as 'n KI-agent beskryf word.[1] Dit dryf GitHub Copilot aan, 'n KI-gebaseerde kode-outovoltooiingsinstrument wat beskikbaar is in geselekteerde IDE's soos Visual Studio Code en Neovim[2]. Codex is 'n afstammeling van OpenAI se GPT-3-model, spesifiek geoptimaliseer vir programmeringstake.
Op 16 Mei 2025 het OpenAI die bekendstelling van 'n navorsingsvoorskou van Codex aangekondig.[3]
Gebaseer op GPT-3, 'n neurale netwerk wat op teks opgelei is, is Codex addisioneel opgelei op 159 gigagrepe Python-kode van 54 miljoen GitHub-bewaarplekke.[4][5] 'n Tipiese gebruiksgeval van Codex is dat 'n gebruiker 'n opmerking tik, soos "//compute the moving average of an array for a given window size",, en dan die KI gebruik om 'n blok kode voor te stel wat aan daardie opmerkingsprompt voldoen.[6] OpenAI het verklaar dat Codex ongeveer 37% van versoeke kan voltooi en bedoel is om menslike programmering vinniger te maak eerder as om dit te vervang. Volgens OpenAI se blog blink Codex die meeste uit in "die kartering van... eenvoudige probleme na bestaande kode", wat hulle beskryf as "waarskynlik die minste prettige deel van programmering".[7][8] Jeremy Howard, medestigter van Fast.ai, het verklaar dat "Codex 'n manier is om kode geskryf te kry sonder om soveel kode te skryf", en dat "dit nie altyd korrek is nie, maar dit is net naby genoeg".[9] Volgens 'n artikel wat deur OpenAI-navorsers geskryf is, het Codex, toe hulle elke toetsgeval 100 keer probeer het, werkende oplossings vir 70.2% van die aanwysings gegenereer.[10]
OpenAI beweer dat Codex kode in meer as 'n dosyn programmeertale kan skep, insluitend Go, JavaScript, Perl, PHP, Ruby, Shell, Swift en TypeScript, hoewel dit die doeltreffendste in Python is.[2]
Volgens VentureBeat het demonstrasies wat deur OpenAI opgelaai is, indrukwekkende ko-verwysingsresolusievermoëns getoon. Die demonstrateurs kon 'n blaaierspeletjie in JavaScript skep en datawetenskapkaarte genereer met behulp van matplotlib.[8]
OpenAI het getoon dat Codex kan koppel met dienste en toepassings soos Mailchimp, Microsoft Word, Spotify en Google Calendar.[8][11]
Die Codex-1-model is opgelei om versoeke vir wanware, uitbuiting of beleidskendende inhoud op te spoor en gee 'n weiering terug met 'n aangehaalde beleidsklousule. Die houer het ook geen uitgaande internet nie en slegs afhanklikhede op die witlys, wat die ontploffingsradius van enige slegte kode verminder.[12]
OpenAI-demonstrasies het foute soos ondoeltreffende kode en eenmalige eienaardighede in kodevoorbeelde getoon.[8] In 'n onderhoud met The Verge het OpenAI se hooftegnologiebeampte, Greg Brockman, gesê dat "soms [Codex] nie heeltemal presies weet wat jy vra nie" en dat dit 'n bietjie probeerslae kan vereis.[11] OpenAI-navorsers het bevind dat Codex sukkel met veelstap-aanwysings, dikwels misluk of teenintuïtiewe gedrag toon. Daarbenewens het hulle verskeie veiligheidskwessies geopper, soos oormatige afhanklikheid deur beginnerprogrammeerders, vooroordele gebaseer op die opleidingsdata en sekuriteitsimpakte as gevolg van kwesbare kode.[10]
VentureBeat het verklaar dat omdat Codex op openbare data opgelei is, dit kwesbaar kan wees vir "datavergiftiging" deur opsetlike oplaaie van kwaadwillige kode.[8] Volgens 'n studie deur navorsers van die Universiteit van New York, het ongeveer 40% van die kode wat deur GitHub Copilot (wat Codex gebruik) gegenereer is in scenario's wat relevant is vir hoërisiko-CWE's, foute of ander ontginbare ontwerpfoute ingesluit.[13]
Die Free Software Foundation het kommer uitgespreek dat kodebrokkies wat deur Copilot en Codex gegenereer word, kopiereg kan skend, veral die voorwaarde van die GPL wat vereis dat afgeleide werke onder ekwivalente voorwaardes gelisensieer word.[14] Kwessies wat hulle geopper het, sluit in of opleiding op openbare bewaarplekke onder billike gebruik val of nie, hoe ontwikkelaars oortredende gegenereerde kode kan ontdek, of opgeleide masjienleermodelle as wysigbare bronkode of 'n samestelling van die opleidingsdata beskou kan word, en of masjienleermodelle self kopieregbeskerm kan word en deur wie.[14][15] 'n Interne GitHub-studie het bevind dat ongeveer 0.1% van die gegenereerde kode direkte kopieë van die opleidingsdata bevat het. In een voorbeeld het die model die opleidingsdatakode uitgevoer wat die vinnige inverse vierkantswortelalgoritme implementeer, insluitend kommentaar en 'n verkeerde kopieregkennisgewing.[6]
In reaksie hierop het OpenAI verklaar dat "regsonsekerheid oor die kopieregimplikasies van die opleiding van KI-stelsels aansienlike koste vir KI-ontwikkelaars inhou en dus gesaghebbend opgelos moet word."[6]
Die kopieregkwessies met Codex is vergelyk met die Authors Guild, Inc. teen Google Inc.-hofsaak, waarin regters beslis het dat Google Books se gebruik van teksbrokkies uit miljoene geskandeerde boeke billike gebruik uitmaak.[6][16] Die gebruik van teksbrokkies uit boeke bied egter 'n betroubare verwysing na die kopiereghouer, in teenstelling met saamgestelde werke wat vir die opleidingsalgoritmedata gebruik word waar die finale uitvoer sonder enige sodanige verwysing gemaak word.