ترنسفورمر تولیدگر از پیش آموزشدیده[الف] (به انگلیسی: Generative pre-trained transformers) یا به اختصار جیپیتی (به انگلیسی: GPT) نوعی مدل زبانی بزرگ (LLM)[۵][۶][۷] و یک چارچوب مشهور برای هوش مصنوعی تولیدگر است.[۸][۹] اولین جیپیتی در سال ۲۰۱۸ توسط شرکت آمریکایی اوپنایآی معرفی شد.[۱۰][۱۱] مدلهای جیپیتی شبکههای عصبی مصنوعی مبتنی بر معماری ترنسفورمرها هستند که از قبل، بر روی مجموعه ای از دادههای حجیم از متون بدون برچسب، آموزش دیدهاند و قادر به تولید محتوای جدید شبه انسانی هستند.[۶][۷] از سال ۲۰۲۳، اکثر مدلهای زبانی بزرگ این ویژگیها را دارند[۱۲] و گاهی بهطور گسترده به عنوان جیپیتی شناخته میشوند.[۱۳][۱۴]
اوپنایآی مدلهای تأثیرگذاری از خانواده جیپیتی منتشر کرده که به ترتیب شماره گذاری شدهاند تا سری GPT-n خود را تشکیل دهند.[۱۵] به دلیل افزایش اندازه (تعداد پارامترهای قابل آموزش) و تعلیم بیشتر، هر یک از مدلها بهطور قابل توجهی از قبلی توانایی بیشتری به دست آوردند. جدیدترین خانواده سری جیپیتی به نام جیپیتی-۴ در مارس ۲۰۲۳ منتشر شد. بات مکالمهچتجیپیتی نمونه ای از این مدل زبانی است که مورد توجه زیاد رسانهها و جهان قرار گرفت.[۱۶][۱۷][۱۸]
همچنین اصطلاح «جیپیتی» در نامها و توضیحات چنین مدلهایی که توسط دیگران ساخته شده استفاده میشود.[۱۹][۲۰] بهطور مثال شرکتها در صنایع مختلف جیپیتیهای اختصاصی خود را توسعه دادهاند مانند بلومبرگجیپیتی برای سرمایهگذاری.[۲۱][۲۲]
تولیدگر از پیش آموزش دیده (به انگلیسی: Generative pretraining) یک مفهوم قدیمی در زمینه علوم یادگیری ماشینی بود[۲۳][۲۴] در سال ۲۰۱۷ معماری ترنسفورمرها توسط گوگل اختراع شد.[۲۵] که منجر به ظهور مدلهای زبان بزرگ مانند BERT در سال ۲۰۱۸[۲۶] و XLNet در سال ۲۰۱۹ شد،[۲۷] این مدلهای زبانی فقط ترنسفورمرهای از پیش آموزشدیده (به انگلیسی: pretrained transformers) بودند که قابلیت زایش و تولید متن را نداشتند و صرفاً رمزگذار بودند.[۲۸] در حوالی سال ۲۰۱۸، اوپنایآی مقاله ای تحت عنوان «بهبود درک زبان توسط تولیدگر از پیش آموزشدیده» منتشر کرد که نخستین سیستم ترنسفورمر تولیدگر از پیش آموزشدیده (GPT) را معرفی کرد.[۲۹][۳۰]
قبل از معماریهای مبتنی بر ترنسفورمرها، مدلهای NLP عصبی (پردازش زبانهای طبیعی) وجود داشتند که از طریق مقادیر زیادی از دادههای برچسبگذاری شده نظارت شده آموزش میدیدند. اتکا به یادگیری نظارت شده، استفاده از آن مدلها را در مجموعه دادههایی که به خوبی حاشیه نویسی نشده بودند، محدود میکرد، همچنین آموزش مدلهای زبانی بسیار بزرگ بسیار پرهزینه و وقت گیر میشد.[۳۱]
رویکرد نظارت ضعیف اوپنایآی برای ایجاد یک سیستم تولیدی در مقیاس بزرگ (که برای اولین بار با یک مدل ترنسفورمر انجام میشد) - شامل دو مرحله بود: یک مرحله «یادگیری خودران» بدون نظارت جهت تنظیم پارامترهای اولیه و یک مرحله نظارت شده «تنظیم دقیق» جهت تطبیق این پارامترها.[۳۱][۳۲]
مدل پایه مدل هوش مصنوعی مدلی است که بر روی دادههای زیادی آموزش داده شده و میتواند با طیف گستردهای از وظایف سازگار شود.[۳۳] تاکنون، قابل توجهترین مدل پایه جیپیتی از سری GPT-n شرکت اوپنایآی بودهاست. جدیدترین مورد از آن جیپیتی-۴ است که اوپنایآی از انتشار اندازه یا جزئیات آموزشی آن خودداری کرد.[۳۴]
مدلهای دیگری از این دست عبارتند از مدل زبانی مسیرها شرکت گوگل [۳۹][۴۰] و هوش مصنوعی متا که دارای یک مدل زبان بزرگ پایه مبتنی بر ترنسفورمر مولد است که تحت عنوان LLaMA شناخته میشود.[۴۱][۴۲]
همچنین برخی جیپیتیها میتوانند از روشهایی غیر از متن ورودی/خروجی استفاده کنند. جیپیتی-۴ قادر به پردازش متن و ورودی تصویر است (اگرچه خروجی آن محدود به متن است).[۴۳][۴۴]
↑در برخی منابع «ترنسفورمر از پیش آموزشدیده مولد»[۱] یا «ترنسفورمر از پیش تعلیمیافته زایا»[۲] یا «مولد ازپیشآموزشیافته ترنسفورمر»[۳] یا «مبدل تولیدگر از پیش تعلیمدیده»[۴] نیز ترجمه شدهاست.