در هوش مصنوعی، اندازهگیری فهم زبان چند وظیفهای بزرگ (به انگلیسی: Measuring Massive Multitask Language Understanding) با بهطور خلاصه شده امامالیو (به انگلیسی: MMLU) معیاری برای محک و ارزیابی قابلیتهای مدلهای زبانی بزرگ است.
این معیار حدود ۱۶۰۰۰ سؤال چند گزینه ای دارد که ۵۷ موضوع دانشگاهی از جمله ریاضیات، فلسفه، حقوق و پزشکی را شامل میشود. این ارزیابی یکی از رایجترین معیارهای مورد استفاده برای مقایسه قابلیتهای مدلهای زبانی بزرگ است که تا ژوئیه ۲۰۲۴ بیش از ۱۰۰ میلیون بارگیری داشته است.
امامالیو توسط دن هندریکس و تیمی از محققان در سال ۲۰۲۰ منتشر شد. امامالیو به گونهای طراحی شده که چالشبرانگیزتر از معیارهای ارزیابی موجود در دیگر معیارها باشد. در زمان انتشار امامالیو، اکثر مدلهای زبانی موجود در حدود سطح شانس تصادفی (۲۵٪) عمل میکردند که بهترین عملکرد را مدل جیپیتی ۳ داشت با دقت ۴۳٫۹٪. توسعه دهندگان امامالیو تخمین میزنند که کارشناسان حوزه انسانی به دقت حدود ۸۹٫۸ درصد دست مییابند. تا سال ۲۰۲۴، برخی از قدرتمندترین مدلهای زبان مانند اوپنایآی او۱، جمینای و کلاد ۳ نمرات حدود ۹۰ درصد را دریافت کردهاند.[۱][۲]
شرکت | مدل زبانی بزرگ | امتیاز امامالیو |
---|---|---|
اوپنایآی | اوپنایآی او۱ | 90.8[۱] |
Anthropic | Claude 3.5 Sonnet | ۸۸٫۷ |
متا | Llama-3.1 405B | ۸۸٫۶ |
ایکسایآی | Grok-2 | ۸۷٫۵ |
Anthropic | Claude 3 Opus | ۸۶٫۸ |
متا | Llama-3.1 70B | ۸۶٫۰ |
گوگل | Gemini-1.5 Pro | ۸۵٫۹ |
Inflection | Inflection-2.5 | ۸۵٫۵ |
Mistral | Mistral Large 2 | ۸۴٫۰ |
Reka | Reka Core | ۸۳٫۲ |
AI21 | Jamba-1.5 Large | ۸۱٫۲ |