ام‌ام‌ال‌یو

در هوش مصنوعی، اندازه‌گیری فهم زبان چند وظیفه‌ای بزرگ (به انگلیسی: Measuring Massive Multitask Language Understanding) با به‌طور خلاصه شده ام‌ام‌ال‌یو (به انگلیسی: MMLU) معیاری برای محک و ارزیابی قابلیت‌های مدل‌های زبانی بزرگ است.

این معیار حدود ۱۶۰۰۰ سؤال چند گزینه ای دارد که ۵۷ موضوع دانشگاهی از جمله ریاضیات، فلسفه، حقوق و پزشکی را شامل می‌شود. این ارزیابی یکی از رایج‌ترین معیارهای مورد استفاده برای مقایسه قابلیت‌های مدل‌های زبانی بزرگ است که تا ژوئیه ۲۰۲۴ بیش از ۱۰۰ میلیون بارگیری داشته است.

ام‌ام‌ال‌یو توسط دن هندریکس و تیمی از محققان در سال ۲۰۲۰ منتشر شد. ام‌ام‌ال‌یو به گونه‌ای طراحی شده که چالش‌برانگیزتر از معیارهای ارزیابی موجود در دیگر معیارها باشد. در زمان انتشار ام‌ام‌ال‌یو، اکثر مدل‌های زبانی موجود در حدود سطح شانس تصادفی (۲۵٪) عمل می‌کردند که بهترین عملکرد را مدل جی‌پی‌تی ۳ داشت با دقت ۴۳٫۹٪. توسعه دهندگان ام‌ام‌ال‌یو تخمین می‌زنند که کارشناسان حوزه انسانی به دقت حدود ۸۹٫۸ درصد دست می‌یابند. تا سال ۲۰۲۴، برخی از قدرتمندترین مدل‌های زبان مانند اوپن‌ای‌آی او۱، جمینای و کلاد ۳ نمرات حدود ۹۰ درصد را دریافت کرده‌اند.[۱][۲]

جدول رده‌بندی

[ویرایش]
شرکت مدل زبانی بزرگ امتیاز ام‌ام‌ال‌یو
اوپن‌ای‌آی اوپن‌ای‌آی او۱ 90.8[۱]
Anthropic Claude 3.5 Sonnet ۸۸٫۷
متا Llama-3.1 405B ۸۸٫۶
ایکس‌ای‌آی Grok-2 ۸۷٫۵
Anthropic Claude 3 Opus ۸۶٫۸
متا Llama-3.1 70B ۸۶٫۰
گوگل Gemini-1.5 Pro ۸۵٫۹
Inflection Inflection-2.5 ۸۵٫۵
Mistral Mistral Large 2 ۸۴٫۰
Reka Reka Core ۸۳٫۲
AI21 Jamba-1.5 Large ۸۱٫۲

منابع

[ویرایش]
  1. ۱٫۰ ۱٫۱ OpenAI o1 System Card. OpenAI. p. 33. Retrieved 13 September 2024.
  2. "Multi-task Language Understanding on MMLU | Leaderboard". Papers with Code (به انگلیسی). Retrieved 2024-10-10.