Mô hình ngôn ngữ lớn

Một mô hình ngôn ngữ lớn (LLM) là một mô hình ngôn ngữ với khả năng tổng quát trong việc tạo ngôn ngữ và các tác vụ xử lý ngôn ngữ tự nhiên khác. LLMs có được khả năng này bằng cách học các mối quan hệ thống kê từ các văn bản trong quá trình huấn luyện tự giám sátbán giám sát có độ phức tạp tính toán cao.[1] Các LLM có thể được sử dụng cho việc tạo văn bản, một dạng trí tuệ nhân tạo tạo sinh, bằng cách nhận đầu vào văn bản và liên tục dự đoán token hoặc từ tiếp theo.[2]

LLM là các mạng nơ-ron nhân tạo. Các mô hình lớn nhất và mạnh mẽ nhất cho đến nay được xây dựng dựa trên một kiến trúc Transformer chỉ một chiều giải mã trong khi một số cài đặt gần đây dựa trên các kiến trúc khác, chẳng hạn như các biến thể của mạng nơ-ron hồi quyMamba (một mô hình trạng thái không gian).[3][4][5]

Đến năm 2020, việc tinh chỉnh là cách duy nhất mà một mô hình có thể được điều chỉnh để có thể hoàn thành các tác vụ cụ thể. Tuy nhiên, các mô hình kích thước lớn hơn, chẳng hạn như GPT-3, có thể thông qua kỹ thuật lời nhắc để đạt được kết quả tương tự.[6] Người ta cho rằng chúng có được kiến ​​thức về cú pháp, ngữ nghĩa và các khái niệm trong các tập ngữ liệu của con người, nhưng cũng gặp phải những sai sót và thiên vị có trong các tập ngữ liệu đó.[7]

Một số LLM nổi bật bao gồm GPT của OpenAI (chẳng hạn như GPT-3.5GPT-4, được sử dụng trong ChatGPTMicrosoft Copilot), PaLM của GoogleGemini (Gemini hiện được sử dụng trong chatbot cùng tên), Grok của xAI, LLaMA của Meta, các mô hình Claude của Anthropic và các mô hình nguồn mở của Mistral AI.

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ "Better Language Models and Their Implications". OpenAI. ngày 14 tháng 2 năm 2019. Lưu trữ bản gốc ngày 19 tháng 12 năm 2020. Truy cập ngày 25 tháng 8 năm 2019.
  2. ^ Bowman, Samuel R. (2023). "Eight Things to Know about Large Language Models". arXiv:2304.00612 [cs.CL].
  3. ^ Peng, Bo; và đồng nghiệp (2023). "RWKV: Reinventing RNNS for the Transformer Era". arXiv:2305.13048 [cs.CL].
  4. ^ Merritt, Rick (ngày 25 tháng 3 năm 2022). "What Is a Transformer Model?". NVIDIA Blog (bằng tiếng Anh). Truy cập ngày 25 tháng 7 năm 2023.
  5. ^ Gu, Albert; Dao, Tri (ngày 1 tháng 12 năm 2023), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752
  6. ^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (tháng 12 năm 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (biên tập). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. 33. Curran Associates, Inc.: 1877–1901.
  7. ^ Manning, Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. 151 (2): 127–138. doi:10.1162/daed_a_01905. S2CID 248377870.
Chúng tôi bán
Bài viết liên quan
Caffeine ảnh hưởng đến giấc ngủ của bạn như thế nào
Caffeine ảnh hưởng đến giấc ngủ của bạn như thế nào
Là một con nghiện cafe, mình phải thừa nhận bản thân tiêu thụ cafe rất nhiều trong cuộc sống thường ngày.
Tóm tắt chương 226 Jujutsu Kaisen
Tóm tắt chương 226 Jujutsu Kaisen
Đột nhiên, Hiruguma nói rằng nếu tiếp tục ở trong lãnh địa, Gojo vẫn phải nhận đòn tất trúng
Download Saya no Uta Việt hóa
Download Saya no Uta Việt hóa
Trong thời gian sống tại bệnh viện, Fuminori đã gặp 1 cô gái xinh đẹp tên Saya
Shopee biến mọi người thành con nghiện mua sắm bằng cách nào?
Shopee biến mọi người thành con nghiện mua sắm bằng cách nào?
Dù không phải là sàn thương mại điện tử đầu tiên ở Việt Nam nhưng khi nhắc đến Shopee, ai cũng hiểu ngay đó là nơi mua sắm trực tuyến đầy đủ mặt hàng và tiện lợi nhất.