سک۲سک

سک۲سک (انگلیسی: Seq2seq) خانواده‌ای از رویکردهای یادگیری ماشین است که برای پردازش زبان‌های طبیعی استفاده می‌شود.

کاربردهای آن شامل ترجمه، تولید زبان طبیعی، مدل‌های مکالمه‌ای و خلاصه‌سازی خودکار است.

سک۲سک از تبدیل دنباله استفاده می‌کند: یک دنباله را به دنباله دیگری تبدیل می‌کند.

سک۲سک به عنوان یک مدل یادگیری ماشین، به مجموعه بزرگی از داده‌های آموزشی نیاز دارد تا به‌طور مؤثر کار کند. سک۲سک در طیف وسیعی از کاربردهای دیگر مانند تشخیص گفتار، پاسخ به سوالات و تولید متن خلاقانه نیز استفاده می‌شود.

تاریخچه

[ویرایش]

این الگوریتم توسط گوگل برای استفاده در ترجمه ماشینی توسعه داده شد.

کارهای اولیه مشابه شامل پایان‌نامه دکترای توماش میکولوف در سال ۲۰۱۲ است. در سال ۲۰۲۳، پس از دریافت جایزه آزمون زمان از NeurIPS برای مقاله Word2vec، میکولوف اعلامیه عمومی کرد. در این بیانیه، او تأیید کرد که ایده ترجمه دنباله به دنباله عصبی از اوست و قبل از پیوستن به گوگل به آن پی برده‌است.

معماری

[ویرایش]

یک مدل seq2seq از یک رمزگذار و یک رمزگشا تشکیل شده‌است که معمولاً به صورت شبکه‌های عصبی بازگشتی (RNN) پیاده‌سازی می‌شوند. رمزگذار درک کلی متن ورودی را ثبت کرده و آن را به رمزگشا می‌فرستد، که سپس دنباله خروجی نهایی را تولید می‌کند.

رمزگذار

رمزگذار وظیفه پردازش دنباله ورودی و دریافت اطلاعات ضروری آن را بر عهده دارد که به عنوان حالت پنهان شبکه و در مدلی با مکانیسم توجه، یک بردار درک ذخیره می‌شود. بردار درک یک جمع وزنی از حالت‌های پنهان ورودی است و برای هر نمونه زمانی در دنباله‌های خروجی تولید می‌شود.

رمزگشا

رمزگشا، بردار درک و حالت‌های پنهان را از رمزگذار می‌گیرد و دنباله خروجی نهایی را تولید می‌کند. رمزگشا به صورت خودهمبسته عمل می‌کند و هر بار یک عنصر از دنباله خروجی را ایجاد می‌کند. در هر مرحله، عناصر تولید شده قبلی، بردار درک و اطلاعات دنباله ورودی را برای پیش‌بینی عنصر بعدی در دنباله خروجی در نظر می‌گیرد. به‌طور خاص، در یک مدل با سازوکار توجه، بردار درک و حالت پنهان به هم متصل می‌شوند تا برداری از حالت نهفته توجه تشکیل شود که به عنوان ورودی برای رمزگشا استفاده می‌شود.

سازوکار توجه

[ویرایش]

سازوکار توجه پیشرفتی است که توسط باهداناو و همکارانش در سال ۲۰۱۴ معرفی شد تا محدودیت‌های معماری پایه‌ای سک۲سک - که در آن خروجی حالت پنهان رمزگذار برای رمزگشا در دنباله‌های ورودی طولانی‌تر نامرتبط می‌شود - را برطرف کند. این سازوکار به مدل اجازه می‌دهد تا در طول فرایند رمزگشایی به صورت انتخابی روی قسمت‌های مختلف دنباله ورودی تمرکز کند. در هر قدمِ رمزگشایی، یک مدل هم‌ترازسازی، امتیاز توجه را با استفاده از حالت کنونی رمزگشا و همه بردارهای پنهان توجه به‌عنوان ورودی محاسبه می‌کند. یک مدل هم‌ترازسازی، یک مدل شبکه عصبی دیگر است که به‌طور مشترک با مدل سک۲سک مورد استفاده، آموزش داده می‌شود تا مشخص کند یک ورودی (که با حالت پنهان بازنمایی می‌شود) تا چه حد با خروجی قبلی (که با حالت پنهان توجه بازنمایی می‌شود) مطابقت دارد. سپس تابع بیشینه هموار (Softmax) روی امتیاز توجه اعمال می‌شود تا وزن توجه به دست آید.

در برخی مدل‌ها، حالت‌های رمزگذار، مستقیماً به یک تابع فعال‌سازی وارد می‌شوند و نیاز به مدل هم‌ترازسازی را از بین می‌برند. یک تابع فعال‌سازی، یک حالت رمزگشا و یک حالت رمزگذار را دریافت می‌کند و یک مقدار عددی مرتبط بودن آنها را برمی‌گرداند.

جستارهای وابسته

[ویرایش]

منابع

[ویرایش]