مۆدێلی زمانی گەورە (LLM) مۆدێلێکی بژمێرە (computational) کە توانای درووستکردنی زمان یان ئەرکەکانی تری پێواژۆی زمانی سروشتی natural language processingھەیە. وەک مۆدێلی زمان، LLMەکان ئەم توانایانە بەدەست دەھێنن بە فێربوونی پەیوەندییە ئامارییەکان لە بڕێکی زۆر لە دەق لە کاتی پرۆسەی ڕاھێنانی خۆسەرپەرشتیکراو و نیمچە سەرپەرشتیکراودا.[١]
گەورەترین و بەتواناترین LLM، ھەتا ڕێکەوتی ئابی ٢٠٢٤[نوێکردنەوە]، تۆڕە دەمارییە دەستکردەکانن کە بە بیناسازییەکی پشتبەستوو بە ترەنسفۆرمەری تەنھا دیکۆدەر دروستکراون، کە پرۆسێسکردنی کارا و دروستکردنی داتای دەقی گەورە دەکات. دەتوانرێت مۆدێلە مۆدێرنەکان بۆ ئەرکە تایبەتەکان ورد بکرێتەوە یان دەتوانرێت بە ئەندازیاری دەستووری ڕێنمایی بکرێن.[٢] ئەم مۆدێلانە ھێزی پێشبینیکردن بەدەست دەھێنن سەبارەت بە ڕستەسازی، واتاسازی و بوون ناسی (ئۆنتۆلۆژیا) کە لە کۆدەقەکانی (corpora) زمانی مرۆڤدا ھەن، بەڵام ھەروەھا نادروستی و لایەنگرییەکانیش بە میرات دەگرن کە لە پێدراوەکاندا ھەن کە لەسەریان ڕاھێنراون.[٣]
ھەندێک لە LLMە جێگای سەرنجەکان بریتین لە زنجیرە مۆدێلەکانی GPT ی OpenAI (بۆ نموونە، GPT-3.5، GPT-4 و GPT-4o ; لە ChatGPT و Microsoft Copilot بەکاردێت)، Gemini ی گووگڵ (کە دووەمیان لە ئێستادا لە بۆتێکی دوێنەر بە ھەمان ناو بە کار دەھێنرێت)، خێزانی مۆدێلەکانی LLaMA ی مێتا، مۆدێلەکانی گرانیتی IBM کە سەرەتا لەگەڵ Watsonx بڵاوکرانەوە، مۆدێلەکانی Claude ی Anthropic و مۆدێلەکانی Mistral AI.
پێش ساڵی ٢٠١٧ چەند مۆدێلێکی زمان ھەبوون کە گەورە بوون بە بەراورد بەو تواناکانی کە ئەوکاتە کە لە بەردەست بوون. لە ساڵانی ١٩٩٠ەکاندا، مۆدێلەکانی ڕێکخستنی IBM پێشەنگ بوون لە مۆدێلکردنی زمانی ئاماری. مۆدێلێکی نەرمکراوی n-گرام لە ساڵی ٢٠٠١ کە لەسەر ٠٫٣ ملیار وشە ڕاھێنرابوو، باشترین (SOTA) سەرلێشێواوی (perplexity) ئەوکاتەی بەدەستھێنا.[٤] لە ساڵانی ٢٠٠٠دا، لەگەڵ بڵاوبوونەوەی بەکارھێنانی ئینتەرنێت، ھەندێک لە توێژەران کۆمەڵە داتایەکی زمانییان لەسەر ئاستی ئینتەرنێت دروست کرد ("وێب وەک کۆمەڵەدەق"[٥])، کە لەسەریان مۆدێلی زمانی ئامارییان ڕاھێنا.[٦][٧] لە ساڵی ٢٠٠٩دا، بەھۆی توانای ھەرسکردنی کۆمەڵە داتای گەورە بە شێوازێکی کارا، لە زۆربەی ئەرکەکانی پرۆسێسی زماندا، مۆدێلی زمانی ئاماری زاڵ بوو بەسەر مۆدێلی زمانی ھێماداردا.[٨]
دوای ئەوەی تۆڕە دەمارییەکان لە دەوروبەری ساڵی ٢٠١٢دا زاڵ بوون لە پرۆسێسی وێنەدا، ئەوان لە مۆدێلکردنی زمانیشدا بەکارھێنران. گووگڵ لە ساڵی ٢٠١٦ خزمەتگوزاری وەرگێڕانی خۆی گۆڕی بۆ وەرگێڕانی ئامێری دەمار. پێش ترەنسفۆرمەرەکان (Transformers)، بە تۆڕەکانی seq2seq deep LSTM ئەنجام دەدرا.
لە کۆنفرانسی NeurIPS 2017، توێژەرانی گووگڵ لە وتارە گرینگەکەیاندا " Attention Is All You Need " بیناسازی ترەنسفۆرمەر ناساند. ئامانجی ئەم توێژینەوەیە باشترکردنی تەکنەلۆژیای Seq2seq 2014 بوو،[٩] و بە شێوەیەکی سەرەکی لەسەر بنەمای میکانیزمی سەرنجدان بوو کە لەلایەن Bahdanau et al. لە ساڵی ٢٠١٤ پێشنیار کرابوو. ساڵی دواتر لە ساڵی ٢٠١٨دا، BERT ناسێندرا و بە خێرایی «گشتگیر» بوو.[١٠] ھەرچەندە ترەنسفۆرمەرە ڕەسەنەکە ھەردوو بلۆکی ئینکۆدەر و دیکۆدەری ھەیە، بەڵام BERT مۆدێلێکی تەنھا ئینکۆدەرە.
ھەرچەندە مۆدیلی تەنیا-دیکۆدەری GPT-1 لە ساڵی ٢٠١٨ ناسێندرا، بەڵام ئەوە GPT-2 بوو لە ساڵی ٢٠١٩ کە سەرنجی زۆری ڕاکێشا چونکە OpenAI سەرەتا بە زۆر بەھێزی زانی بۆ ئەوەی بڵاوی بۆ-گشتی بکاتەوە، لە ترسی بەکارھێنانی بە شێوازێکی زیانبەخش.[١١] GPT-3 لە ساڵی ٢٠٢٠ ھەنگاوێکی زیاتر ڕۆیشت و ھەتا ڕێکەوتی ٢٠٢٤[نوێکردنەوە] تەنھا لە ڕێگەی API بەردەستە بەبێ ئەوەی ھیچ پێشکەشکردنی دابەزاندنی مۆدێلەکە بۆ جێبەجێکردنی خۆجێیی ببێت؛ بەڵام ئەوە ChatGPT بوو کە لە ساڵی ٢٠٢٢دا ڕووبەڕووی بەکاربەر بووەوە کە لەسەر بنەمای وێبگەڕ بوو کە خەیاڵی دانیشتووانی گشتی گرت و بووە ھۆی ھەندێک بانگەشەی میدیا و جەنجاڵی ئۆنلاین. ئۆتۆمبێلی GPT-4 ی ساڵی ٢٠٢٣ بەھۆی زیادبوونی وردبینییەوە و وەک «جامێکی پیرۆز» بەھۆی توانا فرە شێوازییەکانییەوە ستایشی کرا.[١٢] OpenAI پوختەی بیناسازی و ژمارەی پارامێتەرەکانی GPT-4ی ئاشکرا نەکرد.
مۆدێلی زمانی کێبڕکێکار لە زۆربەی کاتەکاندا ھەوڵیان داوە لەگەڵ زنجیرەی GPT یەکسان ببنەوە، لانیکەم لە ڕووی ژمارەی پارامێتەرەکانەوە.
لە ساڵی ٢٠٢٢ەوە، مۆدێلەکانی سەرچاوەی بەردەست ناوبانگیان بەدەستھێناوە، بە تایبەت لە سەرەتادا لەگەڵ BLOOM و LLaMA، ھەرچەندە ھەردووکیان سنووردارکردنیان لە بواری بەکارھێناندا ھەیە. مۆدێلەکانی Mistral AI Mistral 7B و Mixtral 8x7b مۆڵەتی ئەپاچییان ھەیە کە ڕێگەپێدراوترە. ھەتا ڕێکەوتی حوزەیرانی ٢٠٢٤[نوێکردنەوە], جۆری ڕێنمایی کراو (Instruction fine tuned) لە مۆدێلی Llama ٣ بە ٧٠ ملیارد پارامێتەرەوە بەھێزترین LLMی سەرچاوە کراوەیە بەپێی LMSYS Chatbot Arena Leaderboard، بەھێزترە لە GPT-3.5 بەڵام بەڵام نەک ئەوەندەی GPT-4.
لە ساڵی ٢٠٢٤ەوە گەورەترین و بەتواناترین مۆدێلەکان ھەموویان لەسەر بنەمای بیناسازی ترانسفۆرمەرە. ھەندێک لە جێبەجێکردنەکانی ئەم دوایییە لەسەر بنەمای بیناسازییەکانی ترە، وەک جۆرەکانی تۆڕی دەماری دووبارەبووەوە و مامبا (مۆدێلێکی دۆخ مەودا -- a state space model).[١٣][١٤]
لەبەر ئەوەی ئەلگۆریتمەکانی فێربوونی ئامێر ژمارەکان پرۆسێس دەکەن نەک دەق، دەقەکە دەبێت بگۆڕدرێت بۆ ژمارە. لە ھەنگاوی یەکەمدا بڕیار لەسەر وشەدانێک دەدرێت، پاشان پێوەرەکانی ژمارە تەواوەکان بە ھەڕەمەکی بەڵام بە بێ دووبارە بوونەوە بۆ ھەر پێدراوەیەکی وشەدانەکە دیاری دەکرێن و لە کۆتاییدا، جێگیرکردنێک پەیوەست دەکرێت بە جێپێوەرە (index) ژمارە تەواوەکانەوە. ئەلگۆریتمەکان بریتین لە کۆدکردنی جووتە بایت (BPE) و WordPiece. ھەروەھا نیشانە تایبەتەکان ھەن کە وەک کاراکتەری کۆنترۆڵ کاردەکەن، وەک [MASK]
بۆ نیشانەی دەمامککراو (وەک لە BERT بەکارھاتووە)، و [UNK]
("نەناسراو") بۆ ئەو کاراکتەرانەی کە لە وشەسازیدا دەرناکەون.
بۆ نموونە، بەھێماکەری BPE کە لەلایەن GPT-3 (Legacy) بەکاردەھێنرێت tokenizer: texts -> series of numerical "tokens"
دابەش دەکات بە
ens | ok | t | " | numerical | of | series | < | texts | : | izer | token |
ھەروەھا بەھێما کردن کۆمەڵە پێدراوەکان پاڵەپەستۆ دەکات. لەبەر ئەوەی LLMەکان بەگشتی پێویستیان بە پێدراوەیەکی ڕیزکراو ھەیە کە زەق نەبێت، دەقە کورتەکان دەبێت "پڕکرانەوە" بکرێن تاوەکو لەگەڵ درێژی درێژترینەکەدا بگونجێن. ژمارەی ھێماکان بۆ ھەر وشەیەک بەندە بە زمانی داتا کۆمەڵەپێدراوەکەوە.[١٥][١٦]
وەک نموونەیەک، بەھێماکەرێک لەبەرچاو بگرن کە لەسەر بنەمای کۆدکردنی جووتە بایت دامەزراوە. لە ھەنگاوی یەکەمدا، ھەموو پیتە ناوازەکان (لەوانەش بۆشایییەکان و نیشانەکانی خاڵبەندی) وەک کۆمەڵەیەکی سەرەتایی n-گرام (واتە کۆمەڵەیەکی سەرەتایی یەک گرام) مامەڵەیان لەگەڵ دەکرێت. یەک لە دوای یەک زۆرترین جووتە کارەکتەری تەنیشت یەکتر تێکەڵ دەکرێن بۆ دوو گرام و ھەموو نموونەکانی جووتەکە بەو جێگایە دەگۆڕدرێن. ھەموو ڕوودانی جووتە تەنیشت یەکەکانی (پێشتر یەکگرتوو) n -گرامەکان کە زۆرترین جار پێکەوە ڕوودەدەن دواتر دووبارە تێکەڵ دەکرێنەوە بۆ تەنانەت درێژتر n-گرام، تاوەکو وشەدانێکی قەبارە دیاریکراو بەدەست دێت (لە حاڵەتی GPT-3، قەبارەکە 50257).[١٧] دوای ئەوەی بەھێماکەرێک ڕاھێنرا، ھەر دەقێک دەتوانرێت لەلایەن ئەوەوە بەھێما بکرێت، بە مەرجێک ئەو کاراکتەرانەی تێدا نەبێت کە لە کۆمەڵە سەرەتایییەکەی یونی-گرامەکاندا دەرنەکەوتوون.[١٨]
وشەدانی نیشانەکان لەسەر بنەمای ئەو دووباربوونەوانەی (فرێکوێنسییانەی) کە لە کۆمەڵەدەقەکانی ئینگلیزییەوە وەرگیراون، تا دەتوانرێت کەمترین نیشانە بۆ وشەیەکی ئینگلیزی مامناوەند بەکاردەھێنێت. وشەیەکی مامناوەند لە زمانێکی تردا کە لەلایەن بەھێماکەرێکی ئینگلیزی باشکراوەوە کۆد کرابێت، بەسەر بڕی ھێمای ژێر-گونجاودا دابەش دەکرێت. بەھێماکەری GPT-2 دەتوانێت تا ١٥ ھێندە زیاتر تۆکن لە ھەر وشەیەکدا بۆ ھەندێک زمان بەکاربھێنێت، بۆ نموونە بۆ زمانی شان لە میانمارەوە. تەنانەت زمانە بەربڵاوترەکانی وەک پورتوگالی و ئەڵمانی "بە بەراورد بە ئینگلیزی "کارایییەکی ٥٠٪"یان ھەیە.[١٩]
ھەروەھا بەھێماکردنی تەماحکار کێشەی ورد لە تەواوکردنی دەقدا دروست دەکات.[٢٠]
لە چوارچێوەی ڕاھێنانی LLMەکاندا، کۆمەڵە پێدراوەکان بە شێوەیەکی گشتی بە لابردنی دەقە نالەبارەکان لە کۆمەڵە دەقەکان، فڕێدانی پێدراوە کوالیتی نزمەکان و دووبارە نەکردنەوە، پاک دەکرێنەوە. کۆمەڵە پێدراوە پاککراوەکان دەتوانن کارایی ڕاھێنان زیاد بکەن و ببێتە ھۆی باشترکردنی بەکارھێنانەکانی دواتر.[٢١][٢٢] دەتوانرێت LLM ی ڕاھێنراو بەکاربھێنرێت بۆ پاککردنەوەی داتا سێتەکان بۆ ڕاھێنانی LLM ی زیاتر.
لەگەڵ زیادبوونی ڕێژەی ناوەڕۆکی دروستکراوی LLM لە وێبدا، پاککردنەوەی پێدراوەکان لە داھاتوودا ڕەنگە فلتەرکردنی ئەو جۆرە ناوەڕۆکە لەخۆبگرێت. ناوەڕۆکی دروستکراوی LLM دەتوانێت کێشەیەک دروست بکات ئەگەر ناوەڕۆکەکە ھاوشێوەی دەقی مرۆڤ بێت (کە فلتەرکردن قورس دەکات) بەڵام کوالیتی نزمتر بێت (دابەزاندنی دەدای ئەو مۆدێلانەی کە لەسەری ڕاھێنراون).[٢٣]
ڕاھێنانی گەورەترین مۆدێلی زمان لەوانەیە زیاتر پێویستی بە پێدراوەی زمانەوانی ھەبێت لەوەی کە بە شێوەیەکی سروشتی بەردەستە، یان کە پێدراوەکانی سروشتی کە ڕوودەدەن کوالیتییەکی تەواویان نییە. لەم حاڵەتانەدا، ڕەنگە پێدراوەی دروستکراو بەکاربھێنرێت. زنجیرەی LLM ی Phi ی مایکرۆسۆفت لەسەر پێدراوەکانی ھاوشێوەی کتێبی خوێندن ڕاھێنراون کە لەلایەن LLM ی ترەوە دروست دەکرێن.[٢٤]
فێربوونی بەھێزکردن لە پێڕاگەیاندنەوەی مرۆڤ (RLHF) لە ڕێگەی ئەلگۆریتمەکانەوە، وەکو باشکردنی سیاسەتی نزیک، بەکاردەھێنرێت بۆ زیاتر باشکردنی مۆدێلێک لەسەر بنەمای کۆمەڵە پێدراوەیەکی پەسەندکردنی مرۆڤ.[٢٥]
بە بەکارھێنانی ڕێبازەکانی «خۆڕێنمایی»، LLM توانیویانە وەڵامە دروستەکان خۆڕێگەخەر بکەن، جێگەی ھەر وەڵامێکی ساکار پڕ بکەنەوە، کە بە چاکسازییە دروستکراوەکانی مرۆڤ بە چەن نموونەیەکی کەم دەستپێدەکات. بۆ نموونە لە ڕێنمایی «وتارێک بنووسە دەربارەی ئەو تەوەرە سەرەکیانەی کە لە ھاملێتدا نوێنەرایەتی دەکرێن»، تەواوکردنی ساکاری سەرەتایی لەوانەیە «ئەگەر وتارەکەت پێشکەش بکەیت لە دوای ١٧ی ئازار، نمرەکەت بە ڕێژەی ١٠٪ کەم دەکرێتەوە بۆ ھەر ڕۆژێکی دواکەوتن» بێت، لەسەر بنەمای دووبارەبوونەوەی (فرێکوێنسیی) ئەم زنجیرە دەقییە لە کۆمەڵەدەقەکەدا.
ڕەنگە گەورەترین LLM زۆر گران بێت بۆ ڕاھێنان و بەکارھێنانی ڕاستەوخۆ. بۆ ئەم جۆرە مۆدێلانە دەتوانرێت تێکەڵەی پسپۆڕان (MoE) بەکاربھێنرێت، کە ھێڵێکی توێژینەوەیە کە توێژەرانی گووگڵ لە ساڵی ٢٠١٧ەوە لە سەری کار دەکەن بۆ ڕاھێنانی بڕێک لە مۆدێلەکان کە دەگاتە یەک تریلیۆن پارامێتەر.[٢٦][٢٧]
زۆربەی ئەنجامەکان کە پێشتر تەنھا بە باشکردن (بە تێچوویەکی زۆر) بەدەست دەھێنران، دەتوانرێت لە ڕێگەی ئەندازیاری پێدراوە بەدەست بھێنرێت، ھەرچەندە سنووردارە بە مەودای یەک گفتوگۆ (بە وردتر، سنووردارە بە مەودای پەنجەرەیەکی دەق).[٢٨]
بۆ ئەوەی بزانێت کام نیشانانە لە چوارچێوەی پەنجەرەی دەق پەیوەندییان بە یەکەوە ھەیە، ڕێبازی سەرنجدان کێشی «نەرم» بۆ ھەر نیشانەیەک بژمێر دەکات، بە وردیتر بۆ جێگیرکردنکەی (embedding)، بە بەکارھێنانی چەندین سەری سەرنج، کە ھەریەکەیان «پەیوەندیدار»ی خۆیان ھەیە «بۆ بژمێرکردنی کێشە نەرمەکانی خۆی.» بۆ نموونە، مۆدێلی بچووک (واتە قەبارەی پارامێتری 117M) GPT-٢ دوازدە سەری سەرنجی ھەبوو و پەنجەرەی دەقی تەنھا 1k نیشانەی (token) ھەبووە.[٣٠] لە وەشانی مامناوەندیدا 345M پارامێتەری ھەیە و ٢٤ چین لەخۆدەگرێت کە ھەر چینێک ١٢ سەری سەرنجی ھەیە. بۆ ڕاھێنانەکان بە دابەزینی لێژی (gradient descent) قەبارەی دەستەی ٥١٢ بەکارھێنرا.[١٨]
گەورەترین مۆدێلەکان، وەکو Gemini 1.5 ی گووگڵ کە لە شوباتی ٢٠٢٤ پێشکەش کرا، دەتوانن پەنجەرەیەکی دەقیان ھەبێت کە قەبارەکەی دەگاتە یەک ملیۆن (پەنجەرەی دەقی ١٠ ملیۆنیش "بە سەرکەوتوویی تاقیکرایەوە").[٣١] مۆدێلەکانی تر کە پەنجەرەی دەقی گەورەیان ھەیە بریتین لە Claude 2.1 ی کۆمپانیای Anthropic، کە پەنجەرەی دەقی تا 200k نیشانەی ھەیە.[٣٢] سەرنج بدە کە ئەم زۆرترینە ئاماژەیە بۆ ژمارەی نیشانەکانی پێدراوەکە و زۆرترین ژمارەی نیشانەکانی دەرچوو جیاوازە لە پێدراوە و زۆرجار بچووکترە. بۆ نموونە مۆدێلی GPT-4 Turbo زۆرترین بەرھەمی ٤٠٩٦ نیشانەیە (token).
ھەروەھا، درێژیی گفتوگۆیەک کە مۆدێلەکە دەتوانێت لەبەرچاوی بگرێت لەکاتی دروستکردنی وەڵامی داھاتوودا بەھۆی قەبارەی پەنجەرەی دەقەوە سنووردارە. ئەگەر درێژی گفتوگۆیەک، بۆ نموونە لەگەڵ ChatGPT, درێژتر بێت لە پەنجەرەی دەقەکەی، تەنھا ئەو بەشانەی ناو پەنجەرەی دەقەکەی لەبەرچاو دەگیرێن لە کاتی دروستکردنی وەڵامی داھاتوودا، یان مۆدێلەکە پێویستی بە بەکارھێنانی ھەندێک ئەلگۆریتم ھەیە بۆ کورتکردنەوەی بەشە زۆر دوورەکانی ناو گفتوگۆکە.
کەموکوڕییەکانی گەورەکردنی پەنجەرەی دەق بریتین لە تێچووی بژمێر کردنی زیاتر و لەوانەیە کەمکردنەوەی گرنگیدان بە وشە نزیکەکان، لەکاتێکدا بچووککردنەوەی دەتوانێت ببێتە ھۆی ئەوەی مۆدێلێک توانای سەرنجدانە سەر پێوەندییە گرنگە دوور مەوداکان لەدەست بدات. ھاوسەنگکردنیان بابەتێکی تاقیکردنەوە و ڕەچاوکردنی تایبەت بە بوارەکەیە.
ڕەنگە مۆدێلێک پێشڕاھێنراو بێت (پێشوەختە ڕاھێنرابێت) بۆ ئەوەی پێشبینی بکات کە چۆن بەشەکە بەردەوام دەبێت، یان چی لە پارچەکەدا (segment) نەماوە، بە پێدانی بەشێک لە کۆمەڵە پێدراوەکانی ڕاھێنانەکەی.[٣٣] دەتوانێت ھەریەکێک لەم دووانە بێت
[__] [__]
کرێم»ە، مۆدێلەکە پێشبینی دەکات کە «خواردنی» و «ئایس» نەماوە.لەوانەیە مۆدێلەکان لەسەر ئەرکە یارمەتیدەرەکان ڕابھێنرێن کە تێگەیشتنیان لە دابەشکردنی پێدراوەکان تاقی دەکەنەوە، وەک پێشبینیکردنی ڕستەی داھاتوو (NSP)، کە تێیدا جووتە ڕستە دەخرێنەڕوو و مۆدێلەکە دەبێت پێشبینی بکات کە ئایا بە یەکەوە لە کۆمەڵەدەقی ڕاھێنانەکەدا دەردەکەون یان نا.[٣٤] لە کاتی ڕاھێناندا، بۆ سەقامگیرکردنی ڕاھێنان، لەدەستدانی ڕێکخستنیش (regularization loss) بەکاردەھێنرێت. ھەرچەندە لەدەستدانی ڕێکخستن بەزۆری لە کاتی تاقیکردنەوە و ھەڵسەنگاندندا بەکارناھێنرێت.
ژێرخانی بەرچاو پێویستە بۆ ڕاھێنانی گەورەترین مۆدێلەکان.[٣٥][٣٦][٣٧]
پێشکەوتنەکانی نەرمەکاڵا و ڕەقەکاڵا لە ساڵی ٢٠٢٠ەوە تێچووی زۆر کەمکردووەتەوە، بەجۆرێک کە لە ساڵی ٢٠٢٣دا تێچووی ڕاھێنانی LLM ی ١٢ ملیار پارامێتری تێچووی ژمارەکردنی (computational cost) 72,300 A100-GPU -کاتژمێرە، لەکاتێکدا لە ساڵی ٢٠٢٠ تێچووی ڕاھێنانی LLM ی ١٫٥ ملیار پارامێترییە (کە دوو ئەوەندە بچووکتر بوو لە باشترین مۆدێل لە ساڵی ٢٠٢٠) لە نێوان ٨٠ ھەزار بۆ یەک ملیۆن و ٦٠٠ ھەزار دۆلار بووە.[٣٨][٣٩][٤٠] لە ساڵی ٢٠٢٠ەوە بڕە پارەیەکی زۆر وەبەرھێنان لە مۆدێلە گەورەکاندا کراوە. بۆ نموونە ڕاھێنانی GPT-2 (واتە مۆدێلێکی ١٫٥ ملیار پارامێتەر) لە ساڵی ٢٠١٩دا ٥٠ ھەزار دۆلاری تێچووە، لەکاتێکدا ڕاھێنانی PaLM (واتە مۆدێلێکی ٥٤٠ ملیار پارامێتەر) لە ساڵی ٢٠٢٢دا ٨ ملیۆن دۆلاری تێچووە، ھەروەھا Megatron-Turing NLG 530B (لە ساڵی ٢٠٢١) نزیکەی ١١ ملیۆن دۆلاری تێچووە.[٤١]
بۆ LLM لەسەر بنەمای ترانسفۆرمەر، تێچووی ڕاھێنان زۆر زیاترە لە تێچووی دەرئەنجامدان. بۆ ھەر پارامێتەرێک ٦ FLOP تێدەچێت بۆ ڕاھێنان لەسەر یەک نیشانە، لەکاتێکدا تێچووی ١ بۆ ٢ FLOPە بۆ ھەر پارامێتەرێک بۆ دەرئەنجامدان لەسەر یەک نیشانە.
LLM مۆدێلێکی زمانە، کە بریکار نییە بەو پێیەی ھیچ ئامانجێکی نییە، بەڵام دەتوانرێت وەک پێکھاتەیەکی بریکاری زیرەک بەکاربھێنرێت.[٤٢] توێژەران چەندین شێوازیان بۆ ئەم جۆرە یەکگرتنانە باس کردووە.[ژێدەر پێویستە]
بە شێوەیەکی گشتی، LLMەکان بە ژمارەی کەڕتی تاک یان نیوە وردبینی (float32 و float16) ڕاھێنراون. یەک float16، ١٦ بیتی ھەیە، یان 2 بایت، و بۆیە یەک ملیار پارامێتەر پێویستی بە 2 گیگابایت ھەیە. گەورەترین مۆدێلەکان بە شێوەیەکی گشتی ١٠٠ ملیار پارامێتەریان ھەیە، کە پێویستیان بە ٢٠٠ گیگابایت ھەیە بۆ بارکردن، ئەمەش وایان لێدەکات لە دەرەوەی مەودای زۆربەی ئەلیکترۆنیاتی بەکاربەر بن.[٤٣]
ژمارەکردنی (quantization) دوای ڕاھێنان،[٤٤] ئامانجی کەمکردنەوەی بۆشایی پێویستە لە ڕێگەی دابەزاندنی وردبینی پارامێتەرەکانی مۆدێلێکی ڕاھێنراو، لە ھەمان کاتدا پاراستنی زۆربەی کارایییەکەی.[٤٥][٤٦] ساکارترین شێوازی ژمارەکردن بە ساکاری ھەموو ژمارەکان کورت دەکاتەوە بۆ ژمارەیەکی دیاریکراوی بیت. دەتوانرێت بە بەکارھێنانی پەرتووکی کۆدی ژمارەکردنی جیاواز بۆ ھەر چینێک باشتر بکرێت. دەتوانرێت باشترکردنی زیاتر بە بەکارھێنانی وردبینی جیاواز بۆ پارامێتەرەکانی جیاواز ئەنجام بدرێت، لەگەڵ وردبینییەکی بەرزتر بۆ پارامێتەرە تایبەتە گرنگەکان ("کێشی دەرەوە").[٤٧] بۆ ڕێنمایی بینراو سەیری[٤٨] بکە.
لەکاتێکدا کە مۆدێلە ژمارەکراوەکان بە شێوەیەکی گشتی بەستوو دەبن، و تەنھا مۆدێلە پێش-ژمارەکراوەکان ورد دەکرێنەوە، مۆدێلە ژمارەکراوەکان ھێشتا دەتوانرێن وردبین fine-tuned) بکرێنەوە بۆ بواری تایبەت.[٤٩]
فرە شێوازی بە واتای «ھەبوونی چەندین شێواز»، و «شێواز» ئاماژەیە بۆ جۆرێک لە پێدراوە یان دەرچوو، وەک ڤیدیۆ، وێنە، دەنگ، دەق، ھەستی خۆھەڵسەنگاندن و ھتد.[٥٠] زۆر مۆدێلی AI ھەبوون کە بە تایبەتی ڕاھێنراون بۆ خواردنی یەکێک شێواز و دەرئەنجامی شێوازێکی تر، وەک ئەلێکسنێت (AlexNet) بۆ وێنە-بۆ-ناونانی،[٥١] وەڵامدانەوەی پرسیاری بینراو بۆ وێنە-دەق بۆ دەق،[٥٢] و ناسینەوەی دوان (speech recognition) بۆ دوان بۆ دەق.
ئەم چوار ھایپەر-پارامێتەرەی خوارەوە تایبەتمەندی LLM دەناسێنن:
ئەوان بە دەستوورە ئامارییە ساکارەکان لە پەیوەندیدان، کە پێیان دەوترێت "دەستوورەکانی پێوانەکردن". دەستوورێکی تایبەتی پێوانەکردن (" پێوانەکردنی چینچیلا ") بۆ LLM کە بە شێوەیەکی خۆگەڕانەوە بۆ یەک خول (epoch) ڕاھێنراوە، لەگەڵ خشتەی ڕێژەی فێربوونی لۆگ-لۆگ، دەڵێت کە:[٥٣] لەو شوێنەی گۆڕاوەکان لێیە
و ھایپەر-پارامێتەرەکانی ئاماری بریتین لە
کارامەیی مۆدێلە گەورەکان لەسەر ئەرکە جیاوازەکان، کاتێک لەسەر پێوەرێکی لۆگ-لۆگ نیشان دەدرێت، وەکو دەرھێنانێکی ھێڵیی کارامەیی دەردەکەوێت کە لەلایەن مۆدێلە بچووکەکانەوە بەدەست ھاتووە؛ بەڵام ئەم ھێڵکارییە ڕەنگە بە " شکاندن(ەکان) " لە دەستووری پێوانەکردندا خاڵبەندی بکرێت، کە تێیدا مەودای ھێڵەکە لەناکاو دەگۆڕێت، و کە مۆدێلە گەورەکان "توانای سەرھەڵدان" بەدەستدەھێنن.[٢٨][٥٥] ئەوان لە کارلێکی ئاڵۆزی پێکھاتەکانی مۆدێلەکەوە سەرھەڵدەدەن و بە ڕوونی بەرنامە بۆ داڕێژراو و دیزاین نەکراون.
باوترین پێوەر کە بەکاردەھێنرێت بۆ پێوەر کردنی مۆدێلی زمان، سەرلێشێواوییەکەیەتی لەسەر کۆمەڵەپێدراوەکەی دەقی دیاریکراو. سەرلێشێواوی پێوەرێکە بۆ ئەوەی کە مۆدێلێک تا چەند توانای پێشبینیکردنی ناوەڕۆکی کۆمەڵە پێراوەیەکی ھەیە؛ تا ئەگەری مۆدێلەکە بۆ کۆمەڵەپێدراوەکە زیاتر بێت، سەرلێشێواوییەکە کەمتر دەبێتەوە. لە ڕووی بیرکارییەوە، سەرلێشێواوی وەک ڕێژەیی تێکڕای ئەگەری لۆگی نەرێنی بۆ ھەر نیشانەیەک (exponential of the average negative log likelihood per token) پێناسە دەکرێت: لێرە ژمارەی نیشانەکانە لە کۆمەڵەدەقەکەدا، و "دەق بۆ نیشانە." " بەندە بە جۆری تایبەتی LLM کە بەکارھاتووە." ئەگەر LLMەکە خۆگەڕانەوەیی بێت، ئەوا "دەق بۆ نیشانەی "ی ئەو بەشە دەقەیە کە پێش نیشانەی دەردەکەوێت. ئەگەر LLM دەمامککراو بێت، ئەوا "کۆنتێکست بۆ نیشانەی " ئەو بەشەی دەقەکەیە کە لە دەوری نیشانەی یە.
لەبەر ئەوەی مۆدێلی زمان ڕەنگە زۆر لەگەڵ پێدراوەکانی ڕاھێنانەکانیاندا بگونجێت، مۆدێلەکان بەزۆری بەھۆی سەرلێشێواوییەکانیان لەسەر کۆمەڵەیەکی تاقیکردنەوەی پێدراوە نەبینراوەکان ھەڵدەسەنگێندرێن.[٣٤] ئەمەش ئاڵنگاریی (challenge) تایبەت بۆ ھەڵسەنگاندنی مۆدێلی زمانی گەورە دەخاتە ڕوو. لەگەڵ ڕاھێنانیان لەسەر کۆمەڵەدەقە گەورەکان کە تا ڕادەیەکی زۆر لە وێبەوە وەرگیراون، ئەگەری ئەوە زیاتر دەبێت کە داتاکانی ڕاھێنانی مۆدێلەکان بەبێ ئاگاداری بەشێک لە ھەر کۆمەڵە تاقیکردنەوەیەکی دیاریکراو لەخۆ بگرێت.[٢]
لە تیۆری زانیاریدا، چەمکی ئاڵۆزی (یان نائارامی entropy) بە شێوەیەکی ئاڵۆز پەیوەستە بە سەرلێشێواوییەوە، پەیوەندییەک کە بە شێوەیەکی دیار لەلایەن کلۆد شانۆنەوە دامەزراوە.[٥٦] ئەم پەیوەندییە لە ڕووی بیرکارییەوە بەم شێوەیە دەربڕدراوە .
ئاڵۆزی (ئەنترۆپی)، لەم چوارچێوەیەدا، بە شێوەیەکی باو لە ڕووی بیتەکان بۆ ھەر وشەیەک (BPW)یان بیتەکان بۆ ھەر کارەکتەرێک (BPC) ژمارەیی دەکرێت، ئەمەش پەیوەستە بەوەی کە ئایا مۆدێلی زمانەکە لە نیشانەسازی لەسەر بنەمای وشە یان کاراکتەری بەکاردەھێنێت.
جێی ئاماژەیە، لە حاڵەتی مۆدێلی زمانی گەورەتردا کە بەزۆری نیشاندانی وشەی لاوەکی بەکاردەھێنن، بیتەکان بۆ ھەر نیشانەیەک (BPT) وەک پێوەرێکی بەڕواڵەت گونجاوتر سەرھەڵدەدات؛ بەڵام بەھۆی جیاوازی لە شێوازەکانی نیشانەدان لە سەرانسەری مۆدێلە جیاوازەکانی زمانی گەورە (LLM), BPT وەکو پێوەرێکی جێی متمانە بۆ شیکاری بەراوردکاری لە نێوان مۆدێلە جۆراوجۆرەکاندا کارناکات. بۆ گۆڕینی BPT بۆ BPW، دەتوانرێت بە تێکڕای ژمارەی نیشانەکان لە ھەر وشەیەکدا چەند ھێندە بکات.
لە ھەڵسەنگاندن و بەراوردکردنی مۆدێلەکانی زماندا، بەگشتی نائارامی نێوانی (cross-entropy) پێوەرێکی پەسەندکراوە بەسەر ئەنترۆپیدا. بنەمای بنەڕەتی ئەوەیە کە BPW نزمتر ئاماژەیە بۆ توانای بەرزبوونەوەی مۆدێلێک بۆ پاڵەپەستۆ. ئەمەش لە بەرامبەردا ڕەنگدانەوەیەی لێھاتوویی مۆدێلەکەیە لە پێشبینیکردنی ورددا.
{{citation}}
: نرخی |arxiv=
بپشکنە (یارمەتی)
{{cite journal}}
: نرخی |arxiv=
بپشکنە (یارمەتی)
{{citation}}
: نرخی |arxiv=
بپشکنە (یارمەتی)
In other words, to express the same sentiment, some languages require up to 10 times more tokens.
{{cite journal}}
: نرخی |arxiv=
بپشکنە (یارمەتی)
{{cite arXiv}}
: نرخی |arxiv=
بپشکنە (یارمەتی)
{{citation}}
: نرخی |arxiv=
بپشکنە (یارمەتی)
{{cite arXiv}}
: نرخی |arxiv=
بپشکنە (یارمەتی)
{{cite arXiv}}
: نرخی |arxiv=
بپشکنە (یارمەتی)
{{cite arXiv}}
: نرخی |arxiv=
بپشکنە (یارمەتی)
{{cite arXiv}}
: نرخی |arxiv=
بپشکنە (یارمەتی)
{{cite book}}
: نرخی |arxiv=
بپشکنە (یارمەتی)
{{cite arXiv}}
: نرخی |arxiv=
بپشکنە (یارمەتی)
{{cite arXiv}}
: نرخی |arxiv=
بپشکنە (یارمەتی)
{{citation}}
: نرخی |arxiv=
بپشکنە (یارمەتی)
{{cite journal}}
: نرخی |arxiv=
بپشکنە (یارمەتی)
{{cite arXiv}}
: |arxiv=
پێویستە (یارمەتی)
{{cite arXiv}}
: |arxiv=
پێویستە (یارمەتی)
{{cite arXiv}}
: |arxiv=
پێویستە (یارمەتی)
{{cite arXiv}}
: |arxiv=
پێویستە (یارمەتی)
{{cite arXiv}}
: |arxiv=
پێویستە (یارمەتی)
{{cite arXiv}}
: نرخی |arxiv=
بپشکنە (یارمەتی)