Kỹ thuật tạo lệnh hoặc kỹ thuật ra lệnh[1] (prompt engineering) là quá trình cấu trúc một văn bản đầu vào cho AI tạo sinh giải thích và diễn giải.[2][3] Một văn bản đầu vào (prompt), còn được gọi là lệnh nhắc, hoặc gợi ý, là văn bản ngôn ngữ tự nhiên mô tả nhiệm vụ mà một AI cần thực hiện:[4] một lệnh nhắc cho mô hình ngôn ngữ lớn có thể là một truy vấn như "định lý nhỏ Fermat là gì?",[5] một mệnh lệnh như "viết một bài thơ về lá rụng",[6] hoặc một câu dài bao gồm ngữ cảnh, hướng dẫn,[7] và lịch sử cuộc trò chuyện. Kỹ thuật tạo lệnh có thể liên quan đến việc diễn đạt một truy vấn, chỉ định một phong cách,[6] cung cấp ngữ cảnh phù hợp[8] hoặc giao cho AI một vai trò như "Hành động như một người bản xứ Pháp".[9] Một lệnh nhắc có thể bao gồm một vài ví dụ để mô hình học hỏi, chẳng hạn như yêu cầu mô hình hoàn thành chuỗi "maison → house, chat → cat, chien → ... " (câu trả lời mong đợi là dog),[10] phương pháp này được gọi là học với ít mẫu.[11]
Khi giao tiếp với một mô hình chuyển văn bản thành hình ảnh hoặc mô hình chuyển văn bản thành âm thanh, một lệnh nhắc điển hình là mô tả đầu ra mong muốn như "một bức ảnh chất lượng cao của một phi hành gia cưỡi ngựa"[12] hoặc "Lo-fi slow BPM electro chill với các mẫu âm thanh tự nhiên (tiếng chim hót, tiếng mưa, tiếng sóng vỗ)".[13] Việc nhắc nhở một mô hình chuyển văn bản thành hình ảnh có thể liên quan đến việc thêm, loại bỏ, nhấn mạnh và sắp xếp lại các từ để đạt được đối tượng, phong cách,[2] bố cục, ánh sáng,[14] và thẩm mỹ mong muốn.
Kỹ thuật tạo lệnh trở nên khả thi nhờ vào học theo ngữ cảnh (in-context learning). Đây là khi một mô hình có thể tạm thời học từ các nhắc lệnh mà nó được cung cấp. Khả năng học tập theo ngữ cảnh là một khả năng nổi bật[15] của các mô hình ngôn ngữ lớn. Học tập theo ngữ cảnh cũng là một thuộc tính nổi bật của kích thước mô hình, có nghĩa là nó mạnh mẽ hơn khi mô hình lớn hơn. Nó gây ra các đứt gãy[16] trong cách các mô hình mở rộng, khi mà các mô hình lớn hơn cải thiện theo những cách mà các mô hình nhỏ hơn không thể.[17][18]
Trái ngược với việc huấn luyện (training) và tinh chỉnh (fine-tuning) cho từng nhiệm vụ cụ thể, vốn không mang tính tạm thời, những gì đã được học trong quá trình học theo ngữ cảnh chỉ mang tính tạm thời. Nó không mang theo các ngữ cảnh tạm thời hoặc các độ lệch (bias), ngoại trừ những cái đã có sẵn trong tập dữ liệu (tiền huấn luyện), từ cuộc trò chuyện này sang cuộc trò chuyện khác.[19] Kết quả này của "tối ưu hóa mesa"[20][21] bên trong các lớp transformer là một dạng của học siêu cấp (Meta-learning) hoặc "học cách học".[22]
Năm 2018, các nhà nghiên cứu lần đầu tiên đề xuất rằng tất cả các nhiệm vụ riêng biệt trước đây trong NLP, chẳng hạn như dịch máy, tóm tắt văn bản và phân tích tình huống, có thể được dồn vào một mô hình duy nhất và có thể xử lý câu trả lời theo ngữ cảnh. Ngoài ra, họ đã huấn luyện một mô hình đa nhiệm đầu tiên duy nhất để trả lời bất kỳ câu hỏi liên quan đến nhiệm vụ nào như là "Tâm trạng là gì" hoặc "Dịch câu này sang tiếng Đức" hoặc "Ai là tổng thống?"[23]
Năm 2021, các nhà nghiên cứu đã tinh chỉnh một mô hình đã được huấn luyện trước (T0) để thực hiện 12 nhiệm vụ NLP (sử dụng 62 tập dữ liệu, vì mỗi nhiệm vụ có thể có nhiều tập dữ liệu khác nhau). Mô hình đã cho thấy hiệu suất tốt trên các nhiệm vụ mới, vượt qua các mô hình được huấn luyện trực tiếp chỉ để thực hiện một nhiệm vụ (không có huấn luyện trước). Để giải quyết một nhiệm vụ, T0 được cung cấp nhiệm vụ trong một lệnh nhắc có cấu trúc như sau, Nếu {{tiền đề}} là đúng, liệu nó cũng có đúng với {{giả thuyết}}? ||| {{hậu quả}}.
, là lệnh nhắc được sử dụng để làm cho T0 giải quyết suy diễn (logical consequence).[24]
Một kho lưu trữ dành cho lệnh nhắc có hơn 2.000 lệnh nhắc công khai cho khoảng 170 tập dữ liệu đã có sẵn vào tháng 2 năm 2022.[25]
Năm 2022, kỹ thuật nhắc chuỗi tư duy (chain-of-thought prompting technique) đã được các nhà nghiên cứu từ Google đề xuất.[18][26]
Năm 2023, một số cơ sở dữ liệu lệnh nhắc (prompt database) từ văn bản sang văn bản và từ văn bản sang hình ảnh đã có sẵn công khai cho người dùng.[27][28]
Chuỗi tư duy (Chain-of-thought - CoT) là một kỹ thuật cho phép mô hình ngôn ngữ lớn (LLM) giải quyết một vấn đề như một chuỗi các bước trung gian[29] trước khi đưa ra câu trả lời cuối cùng. Kỹ thuật tạo lệnh theo chuỗi tư duy cải thiện khả năng lý luận bằng cách khiến mô hình trả lời một vấn đề bằng nhiều bước mà các bước lý luận này đều theo dòng suy nghĩ.[18][30][31] Nó cho phép các mô hình ngôn ngữ lớn vượt qua khó khăn với một số nhiệm vụ đòi hỏi lý luận logic (logical reasoning) và cần nhiều bước để giải quyết, chẳng hạn như các câu hỏi về toán học hoặc lý luận thông thường (commonsense reasoning).[32][33][34]
Ví dụ, với câu hỏi "H: Nhà ăn có 23 quả táo. Nếu họ dùng 20 quả để làm bữa trưa và mua thêm 6 quả nữa, họ còn bao nhiêu quả táo?", một lệnh nhắc CoT có thể khiến LLM trả lời "Đ: Cả nhà ban đầu có 23 quả táo. Họ đã dùng 20 quả để làm bữa trưa. Vậy họ còn 23 - 20 = 3. Họ đã mua thêm 6 quả táo nữa, vì vậy họ có 3 + 6 = 9. Câu trả lời là 9."[18]
Như đã đề xuất ban đầu,[18] mỗi lệnh nhắc CoT bao gồm một vài ví dụ Hỏi & Đáp. Điều này khiến nó trở thành một kỹ thuật tạo lệnh ít mẫu (few-shot). Tuy nhiên, việc chỉ cần thêm các từ "Hãy suy nghĩ từng bước một",[35] cũng đã được chứng minh là hiệu quả, vì vậy nó cũng khiến CoT trở thành một kỹ thuật tạo lệnh không mẫu (zero-shot). Điều này cho phép mở rộng tốt hơn vì người dùng không còn cần phải xây dựng nhiều ví dụ Hỏi & Đáp CoT cụ thể.[36]
Khi được áp dụng cho PaLM, một mô hình ngôn ngữ có 540 tỷ tham số, lệnh nhắc CoT đã hỗ trợ đáng kể cho mô hình, cho phép nó hoạt động tương đương với các mô hình tinh chỉnh (fine-tuning model) theo nhiệm vụ cụ thể trên một số nhiệm vụ, đạt được kết quả hiện đại nhất vào thời điểm đó trên kiểm chuẩn lý luận toán học GSM8K (GSM8K mathematical reasoning benchmark).[18] Thêm vào đó, có thể tinh chỉnh các mô hình trên tập dữ liệu lý luận CoT để nâng cao khả năng này hơn nữa và kích thích khả năng diễn giải tốt hơn.[37][38]
Ví dụ:[35]
H: {câu hỏi} Đ: Hãy suy nghĩ từng bước một.
Kỹ thuật tạo lệnh chuỗi tư duy chỉ là một trong nhiều kỹ thuật kỹ thuật tạo lệnh. Nhiều kỹ thuật khác cũng đã được đề xuất. Ít nhất 29 kỹ thuật khác nhau đã được công bố.[39]
Lệnh nhắc chuỗi ký hiệu (CoS)
Lệnh nhắc chuỗi ký hiệu (Chain of Symbol - CoS) kết hợp với lệnh nhắc CoT giúp các mô hình ngôn ngữ lớn (LLM) giải quyết khó khăn trong lý luận không gian trong văn bản. Nói cách khác, việc sử dụng các ký hiệu tùy ý như ' / ' giúp LLM diễn giải khoảng cách trong văn bản. Điều này hỗ trợ trong lý luận và tăng hiệu suất của LLM.[40]
Ví dụ:[40]
Đầu vào: Có một tập hợp các viên gạch. Viên gạch màu vàng C nằm trên viên gạch E. Viên gạch màu vàng D nằm trên viên gạch A. Viên gạch màu vàng E nằm trên viên gạch D. Viên gạch màu trắng A nằm trên viên gạch B. Đối với viên gạch B, màu sắc là màu trắng. Bây giờ chúng ta phải lấy một viên gạch cụ thể. Các viên gạch phải được lấy từ trên xuống dưới, và nếu viên gạch ở dưới cần được lấy, viên gạch ở trên phải được gỡ bỏ trước. Làm thế nào để lấy viên gạch D? B/A/D/E/C C/E E/D D Đầu ra: Vậy chúng ta có kết quả là C, E, D.
Lệnh nhắc kiến thức được tạo ra (Generated knowledge prompting)[41] trước tiên yêu cầu mô hình tạo ra các sự kiện liên quan để hoàn thành lệnh nhắc, sau đó tiếp tục hoàn thành lệnh nhắc. Chất lượng hoàn thành thường cao hơn, vì mô hình có thể được điều kiện hóa dựa trên các sự kiện liên quan.
Ví dụ:[41]
Tạo một số kiến thức về các khái niệm trong đầu vào. Đầu vào: {câu hỏi} Kiến thức:
Lệnh nhắc ít tới nhiều (Least-to-most prompting)[42] gợi ý cho mô hình liệt kê các vấn đề phụ của một vấn đề trước, sau đó giải quyết chúng theo trình tự, sao cho các vấn đề phụ sau có thể được giải quyết với sự trợ giúp từ các câu trả lời của các vấn đề phụ trước.
Ví dụ:[42]
Đầu vào: Q: {câu hỏi} A: Hãy phân tích vấn đề này: 1.
Giải mã tự nhất quán (Self-consistency decoding)[43] thực hiện nhiều chuỗi suy nghĩ, sau đó chọn ra kết luận thường được đạt đến nhất từ tất cả các chuỗi suy nghĩ. Nếu các chuỗi suy nghĩ khác nhau quá nhiều, có thể hỏi con người để có được chuỗi suy nghĩ chính xác.[44]
Lệnh nhắc dựa trên độ phức tạp (Complexity-based prompting)[45] thực hiện nhiều chuỗi suy nghĩ, sau đó chọn những chuỗi có chuỗi suy nghĩ dài nhất, và sau đó chọn ra kết luận thường được đạt đến nhất từ những chuỗi đó.
Kỹ thuật tự hoàn thiện (Self-refine) [46] ban đầu cho LLM giải quyết vấn đề, sau đó yêu cầu LLM phê bình giải pháp của mình, rồi bảo LLM giải quyết lại vấn đề dựa trên chúng. Quá trình này được lặp lại cho đến khi dừng lại, có thể do hết token, thời gian, hoặc LLM xuất ra một token "dừng".
Ví dụ về phê bình:[46]
Tôi có một đoạn mã. Đưa ra một gợi ý để cải thiện khả năng đọc. Đừng sửa đoạn mã, chỉ cần đưa ra gợi ý. Đoạn mã: {mã} Gợi ý:
Ví dụ về tinh chỉnh:
Đoạn mã: {mã} Hãy sử dụng gợi ý này để cải thiện đoạn mã. Gợi ý: {gợi ý} Đoạn mã mới:
Lệnh nhắc cây tư duy (Tree-of-thought - ToT) [47] tổng quát hóa chuỗi suy nghĩ (chain-of-thought) bằng cách yêu cầu mô hình tạo ra một hoặc nhiều "bước tiếp theo có thể xảy ra", sau đó chạy mô hình trên từng bước tiếp theo có thể xảy ra tiếp sau đó bằng phương pháp tìm kiếm theo chiều rộng, beam (beam search), hoặc một số phương pháp tìm kiếm cây khác.[48]
Lệnh nhắc Maieutic tương tự như tree-of-thought. Mô hình được yêu cầu trả lời một câu hỏi kèm theo giải thích. Sau đó, mô hình tiếp tục được yêu cầu giải thích các phần của lời giải thích, và cứ thế tiếp tục. Những cây giải thích không nhất quán sẽ bị cắt bỏ hoặc loại bỏ. Điều này cải thiện hiệu suất trong việc lý luận phức tạp về kiến thức thông thường.[49]
Ví dụ:[49]
Q: {câu hỏi} A: Đúng, bởi vì
Q: {câu hỏi} A: Sai, bởi vì
Lệnh nhắc kích thích định hướng (Directional-stimulus prompting)[50] bao gồm một gợi ý hoặc dấu hiệu, chẳng hạn như từ khóa mong muốn, để hướng dẫn mô hình ngôn ngữ đến đầu ra mong muốn.
Ví dụ:[50]
Bài viết: {bài viết} Từ khóa:
Bài viết: {bài viết} H: Viết một bản tóm tắt ngắn của bài viết trong 2-4 câu, chính xác bao gồm các từ khóa được cung cấp. Từ khóa: {từ khóa} Đ:
Mặc định, đầu ra của các mô hình ngôn ngữ có thể không chứa ước tính về sự không chắc chắn (uncertainty). Mô hình có thể xuất ra văn bản trông có vẻ tự tin, mặc dù dự đoán về các từ trong mô hình có điểm hợp lý (likelihood score) thấp. Các mô hình ngôn ngữ lớn như GPT-4 có thể có các điểm hợp lý được hiệu chỉnh chính xác trong các dự đoán từ,[51] và do đó sự không chắc chắn của đầu ra mô hình có thể được ước tính trực tiếp bằng cách đọc ra các điểm hợp lý của dự đoán từ (token prediction).
Tuy nhiên, nếu không thể truy cập được các điểm này (chẳng hạn như khi truy cập mô hình qua API), sự không chắc chắn vẫn có thể được ước tính và tích hợp vào đầu ra của mô hình. Một phương pháp đơn giản là kích thích mô hình sử dụng từ ngữ để ước tính sự không chắc chắn.[52] Một phương pháp khác là kích thích mô hình từ chối trả lời nếu đầu vào không thỏa mãn các điều kiện.[cần dẫn nguồn]
Tạo văn bản có hỗ trợ truy xuất (Retrieval-augmented generation - RAG) là một quy trình hai pha liên quan đến truy xuất tài liệu và tạo câu trả lời bởi một mô hình Ngôn ngữ Lớn (LLM). Giai đoạn ban đầu sử dụng các vectơ từ (word embedding) dày đặc để truy xuất tài liệu. Việc truy xuất này có thể dựa trên nhiều định dạng cơ sở dữ liệu khác nhau tùy theo trường hợp sử dụng, chẳng hạn như một cơ sở dữ liệu vector (vector database), chỉ mục tóm tắt (summary index), chỉ mục cây (tree index), hoặc bảng chỉ mục từ khóa (keyword table index).[53]
Khi nhận được truy vấn, công cụ truy xuất tài liệu sẽ chọn ra các tài liệu liên quan nhất. Mức độ liên quan này thường được xác định bằng cách mã hóa cả truy vấn và các tài liệu thành các vectơ, sau đó xác định các tài liệu có vectơ gần nhất về khoảng cách Euclid so với vectơ truy vấn. Sau khi truy xuất tài liệu, LLM sẽ tạo ra một đầu ra kết hợp thông tin từ cả truy vấn và các tài liệu đã truy xuất.[54] Phương pháp này đặc biệt hữu ích cho việc xử lý thông tin độc quyền hoặc động mà không được bao gồm trong các giai đoạn đào tạo hoặc tinh chỉnh ban đầu của mô hình. RAG cũng nổi bật với việc sử dụng "học ít mẫu", nơi mô hình sử dụng một số lượng nhỏ các ví dụ, thường được tự động truy xuất từ cơ sở dữ liệu, để định hướng cho các đầu ra của nó.
GraphRAG,[55] được Microsoft Research tạo ra, mở rộng RAG theo cách thay vì chỉ dựa vào độ tương đồng vectơ (như trong hầu hết các phương pháp RAG), GraphRAG sử dụng đồ thị tri thức (knowledge graph) do LLM tạo ra. Đồ thị này cho phép mô hình kết nối các mẩu thông tin rời rạc, tổng hợp lại các kiến thức và hiểu một cách toàn diện các khái niệm ngữ nghĩa được tóm tắt trên các bộ dữ liệu lớn.
Các nhà nghiên cứu đã chứng minh hiệu quả của GraphRAG khi sử dụng các bộ dữ liệu như Violent Incident Information from News Articles (VIINA).[56] Bằng cách kết hợp đồ thị tri thức do LLM tạo ra với học máy trên đồ thị, GraphRAG cải thiện đáng kể cả tính toàn diện và đa dạng của các câu trả lời được tạo ra cho các câu hỏi tổng hợp theo ngữ cảnh toàn cầu.
Công việc trước đó đã chỉ ra hiệu quả của việc sử dụng một đồ thị tri thức cho việc trả lời câu hỏi bằng cách sử dụng tạo sinh truy vấn từ văn bản.[57] Những kỹ thuật này có thể được kết hợp để thực hiện tìm kiếm trên cả dữ liệu không có cấu trúc và có cấu trúc, cung cấp ngữ cảnh mở rộng và cải thiện xếp hạng.
Các mô hình ngôn ngữ lớn (LLM) có thể được sử dụng để tạo ra các lệnh nhắc cho chính các mô hình ngôn ngữ lớn khác.[58][59][60][61]
Thuật toán kỹ sư lệnh nhắc tự động (automatic prompt engineer algorithm) sử dụng một LLM để tìm kiếm beam (beam search) qua các lệnh nhắc cho một LLM khác:[62]
Ví dụ CoT có thể được tạo ra bởi chính LLM. Trong "auto-CoT",[63] một thư viện câu hỏi được chuyển thành các vectơ bởi một mô hình như BERT. Các vectơ câu hỏi được phân tích cụm. Các câu hỏi gần với tâm của mỗi cụm sẽ được chọn. Một LLM thực hiện CoT zero-shot trên mỗi câu hỏi. Các ví dụ CoT kết quả sẽ được thêm vào tập dữ liệu. Khi được nhắc với một câu hỏi mới, các ví dụ CoT gần nhất với câu hỏi đó có thể được truy xuất và thêm vào lệnh nhắc.
Vào năm 2022, các mô hình văn bản thành hình ảnh (text-to-image) như DALL-E 2, Stable Diffusion, và Midjourney đã được phát hành công khai cho người dùng.[64] Các mô hình này nhận các lệnh nhắc văn bản làm đầu vào và sử dụng chúng để tạo ra hình ảnh trí truệ nhân tạo (AI art). Các mô hình text-to-image thường không hiểu ngữ pháp và cấu trúc câu theo cùng cách như các mô hình ngôn ngữ lớn khác,[65] vì nó yêu cầu một tập lệnh nhắc khác biệt.
Một lệnh nhắc text-to-image thường bao gồm mô tả về chủ đề của nghệ thuật (chẳng hạn như hoa anh túc màu cam sáng), phương tiện mong muốn (chẳng hạn như tranh kỹ thuật số hoặc nhiếp ảnh), phong cách (chẳng hạn như siêu thực hoặc pop-art), ánh sáng (chẳng hạn như ánh sáng rìa hoặc tia sáng lúc hoàng hôn), màu sắc và kết cấu.[66]
Tài liệu của Midjourney khuyến khích sử dụng các lệnh nhắc ngắn gọn để mô tả, thay vì "Hãy cho tôi xem một bức tranh với nhiều hoa anh túc nở rộ ở California, làm chúng tươi sáng với màu cam rực rỡ, và vẽ chúng theo phong cách minh họa bằng bút chì màu", một lệnh hiệu quả hơn có thể là "Hoa anh túc California màu cam sáng được vẽ bằng bút chì màu".[65]
Thứ tự từ ngữ ảnh hưởng đến kết quả của một lệnh nhắc text-to-image. Các từ nằm gần phần đầu của lệnh nhắc có thể được nhấn mạnh nhiều hơn.[2]
Một số mô hình text-to-image có khả năng bắt chước phong cách của các nghệ sĩ cụ thể bằng cách gọi tên. Ví dụ, cụm từ theo phong cách Greg Rutkowski đã được sử dụng trong các lệnh nhắc của Stable Diffusion và Midjourney để tạo ra hình ảnh theo phong cách đặc trưng của nghệ sĩ kỹ thuật số người Ba Lan Greg Rutkowski.[67]
Các mô hình text-to-image không tự nhiên hiểu được phủ định. Lệnh nhắc "một bữa tiệc không có bánh" có khả năng tạo ra một hình ảnh bao gồm cả bánh.[65] Thay vào đó, lệnh nhắc phủ định (negative prompt) cho phép người dùng chỉ định trong một lệnh nhắc riêng những thuật ngữ nào không nên xuất hiện trong hình ảnh kết quả.[68] Một phương pháp phổ biến là bao gồm các thuật ngữ không mong muốn chung như xấu xí, nhàm chán, giải phẫu sai trong lệnh nhắc phủ định cho một hình ảnh.
Văn bản thành video (text-to-video - TTV) là một công nghệ mới nổi, cho phép tạo ra video trực tiếp từ các lệnh nhắc văn bản. Lĩnh vực này có tiềm năng biến đổi việc sản xuất video, hoạt hình, và kể chuyện. Bằng cách sử dụng sức mạnh của trí tuệ nhân tạo, TTV cho phép người dùng bỏ qua các công cụ chỉnh sửa video truyền thống và chuyển đổi ý tưởng của họ thành hình ảnh động.
Các mô hình bao gồm:
Một số phương pháp tiếp cận bổ sung hoặc thay thế các lệnh văn bản tự nhiên bằng các đầu vào không phải văn bản.
Đối với các mô hình chuyển văn bản thành hình ảnh, "đảo ngược văn bản" (textual inversion) [73] thực hiện một quy trình tối ưu hóa để tạo ra một vectơ từ (word embedding) mới dựa trên một tập hợp các hình ảnh mẫu. Vectơ từ này hoạt động như một "pseudo-word" (từ giả) và có thể được đưa vào một lệnh nhắc để thể hiện nội dung hoặc phong cách.
Vào năm 2023, Meta đã phát hành Segment Anything, một mô hình thị giác máy tính có thể thực hiện phân vùng ảnh bằng cách sử dụng lệnh. Thay vào lệnh văn bản, Segment Anything có thể sử dụng các hộp giới hạn (bounding box), mặt nạ phân đoạn (segmatation mask), và điểm tiền cảnh/bối cảnh (foreground/background).[74]
Trong "prefix-tuning",[75] "prompt tuning" hoặc "soft prompting",[76] các vectơ giá trị số thực (floating-point-valued vector) được tìm kiếm trực tiếp bằng suy giảm độ dốc (gradient descent) để tối đa hóa xác suất logarith hàm hợp lý (log-likelihood) trên các đầu ra.
Về mặt hình thức, hãy để là một tập hợp các token lệnh mềm (embedding có thể điều chỉnh), trong khi và là các token embedding của đầu vào và đầu ra tương ứng. Trong quá trình huấn luyện, các embedding có thể điều chỉnh, đầu vào, và các token đầu ra được nối thành một chuỗi duy nhất và đưa vào các mô hình ngôn ngữ lớn (LLM). Các hàm mất mát được tính trên các token ; các gradient được truyền ngược đến các tham số riêng của lệnh: trong prefix-tuning, chúng là các tham số liên quan đến các token lệnh ở mỗi lớp; trong prompt tuning, chúng chỉ là các token mềm được thêm vào từ vựng.[77]
Về mặt hình thức hơn, đây là prompt tuning. Hãy để một LLM được viết là , trong đó là một chuỗi các token ngôn ngữ, là hàm chuyển token thành vectơ, và là phần còn lại của mô hình. Trong prefix-tuning, ta cung cấp một tập hợp các cặp đầu vào-đầu ra , sau đó sử dụng suy giảm độ dốc để tìm kiếm . Nói cách khác, là xác suất logarith hàm hợp lý (log-likelihood) của việc xuất ra , nếu mô hình trước tiên mã hóa đầu vào thành vectơ , sau đó tiền tố vectơ với tiền vectơ (prefix vector) , rồi áp dụng .
Đối với prefix tuning, nó tương tự, nhưng tiền vectơ được chèn vào các trạng thái ẩn trong mỗi lớp của mô hình.
Kết quả trước đó[78] sử dụng cùng ý tưởng tìm kiếm suy giảm độ dốc, nhưng được thiết kế cho các mô hình ngôn ngữ bị che như BERT, và chỉ tìm kiếm trên các chuỗi token, thay vì các vectơ số học. Về mặt hình thức, nó tìm kiếm trong đó được giới hạn trong các chuỗi token có độ dài nhất định.
Tiêm lệnh nhắc (Prompt injection) là một phương pháp khai thác lợi dụng kẽ hở của khai thác bảo mật máy tính được thực hiện bằng cách khiến một mô hình học máy (chẳng hạn như một LLM được huấn luyện để tuân theo các chỉ dẫn do con người cung cấp) phải tuân theo các chỉ dẫn được cung cấp bởi người dùng độc hại. Điều này trái ngược với hoạt động dự định của các hệ thống tuân theo chỉ dẫn, trong đó mô hình học máy được dự định chỉ tuân theo các chỉ dẫn đáng tin cậy (lệnh nhắc) do người điều hành mô hình học máy cung cấp.[79][80][81]
Prompt engineering is the process of structuring words that can be interpreted and understood by a text-to-image model. Think of it as the language you need to speak in order to tell an AI model what to draw.
Prompt engineering is the art of communicating with a generative AI model.
We demonstrate language models can perform down-stream tasks in a zero-shot setting – without any parameter or architecture modification
what is the fermat's little theorem
"Basic prompt: 'Write a poem about leaves falling.' Better prompt: 'Write a poem in the style of Edgar Allan Poe about leaves falling.'
Next, I gave a more complicated prompt to attempt to throw MusicGen for a loop: "Lo-fi slow BPM electro chill with organic samples."
By the time you type a query into ChatGPT, the network should be fixed; unlike humans, it should not continue to learn. So it came as a surprise that LLMs do, in fact, learn from their users' prompts—an ability known as in-context learning.
Mesa-Optimization is the situation that occurs when a learned model (such as a neural network) is itself an optimizer.
'Chain-of-thought prompting allows us to describe multistep problems as a series of intermediate steps,' Google CEO Sundar Pichai
If you explicitly indicate in your prompt that you want the generative AI to emit a certainty or uncertainty qualification then you will almost certainly get such an indication.
|journal=
(trợ giúp)
|journal=
(trợ giúp)
|journal=
(trợ giúp)
In this paper, we propose prefix-tuning, a lightweight alternative to fine-tuning... Prefix-tuning draws inspiration from prompting
In this work, we explore "prompt tuning," a simple yet effective mechanism for learning "soft prompts"...Unlike the discrete text prompts used by GPT-3, soft prompts are learned through back-propagation