BERT (mô hình ngôn ngữ)

Biểu diễn Thể hiện Mã hóa Hai chiều từ Transformer (tiếng Anh: Bidirectional Encoder Representations from Transformers hay viết tắt là BERT) là một kỹ thuật học máy dựa trên các transformer được dùng cho việc huấn luyện trước xử lý ngôn ngữ tự nhiên (NLP) được phát triển bởi Google. Jacob Devlin và cộng sự từ Google đã tạo ra và công bố BERT vào năm 2018.^[1]^[2] Tính đến năm 2019^{[cập nhật]}, Google đã tận dụng BERT để hiểu rõ hơn các tìm kiếm của người dùng.^[3]

Mô hình BERT bằng tiếng Anh ban đầu đi kèm với hai dạng tổng quát được đào tạo trước:^[1]: (1) mô hình the BERT_BASE, kiến trúc mạng thần kinh chứa 12-lớp, 768-lớp ẩn, 12-đầu, 110M tham số, và (2) mô hình BERT_LARGE model, kiến trúc mạng thần kinh chứa 24-lớp, 1024-lớp ẩn, 16-đầu, 340M tham số. Cả hai đều được huấn luyện từ BooksCorpus^[4] với 800M từ, và một phiên bản của Wikipedia tiếng Anh với 2,500M từ.

Hiệu suất

Khi BERT được công bố, nó đạt hiệu suất state of the art trên một vào tác vụ hiểu ngôn ngữ tự nhiên:^[1]

Tập tác vụ GLUE (General Language Understanding Evaluation) (chứa 9 tác vụ)
SQuAD (Stanford Question Answering Dataset) v1.1 và v2.0
SWAG (Situations With Adversarial Generations)

Lịch sử

BERT có nguồn gốc từ các biểu diễn theo ngữ cảnh trước đào tạo trước bao gồm học trình tự bán giám sát (semi-supervised sequence learning),^[5] Generative Pre-Training, ELMo,^[6] and ULMFit.^[7] Không như các mô hình trước đó, BERT là một biểu diễn ngôn ngữ không giám sát và hai chiều sâu, được đào tạo trước chỉ sử dụng một kho ngữ liệu văn bản thuần túy.

Các mô hình không có ngữ cảnh như Word2vec hay GloVe (học máy) tạo ra các biểu diễn từ nhúng đơn cho mỗi từ trong tập từ vựng, trong khi đó BERT tính đến ngữ cảnh cho mỗi lần xuất hiện của một từ cho trước. Ví dụ: vectơ của từ "running" sẽ có một biểu diễn vectơ Word2vec giống nhau trong hai lần xuất hiện của từ "running" trong các câu "He is running a company" và "He is running a marathon", trong khi đó BERT sẽ cung cấp một nhúng theo ngữ cảnh mà sẽ là khác nhau tùy thuộc theo câu ví dụ.

Vào ngày 25 tháng 10 năm 2019, Google Tìm kiếm thông báo rằng họ đã bắt đầu áp dụng các mô hình BERT cho các truy vấn tìm kiếm bằng Tiếng Anh tại Hoa Kỳ.^[8] Vào ngày 09 tháng 12 năm 2019, có báo báo cho biết BERT đã được Google Tìm kiếm áp dụng cho hơn 70 ngôn ngữ.^[9]^[10]

Dựa trên kiến trúc gốc, nhiều phiên bản của BERT được đào tạo trước riêng cho các ngôn ngữ được triển khai và giới thiệu đến cộng đồng trong đó có Tiếng Việt ^[11] .

Giải thưởng

BERT giành giải Bài viết Dài Tốt nhất (Best Long Paper Award) tại Hội thảo Thường niên 2019 của North American Chapter thuộc Association for Computational Linguistics (NAACL).^[12]

Xem thêm

Tham khảo

^ ^a ^b ^c Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (ngày 11 tháng 10 năm 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].
^ "Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing". Google AI Blog (bằng tiếng Anh). Truy cập ngày 27 tháng 11 năm 2019.
^ "Understanding searches better than ever before". Google (bằng tiếng Anh). ngày 25 tháng 10 năm 2019. Truy cập ngày 27 tháng 11 năm 2019.
^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). "Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books". tr. 19–27. arXiv:1506.06724 [cs.CV].
^ Dai, Andrew; Le, Quoc (ngày 4 tháng 11 năm 2015). "Semi-supervised Sequence Learning". arXiv:1511.01432 [cs.LG].
^ Peters, Matthew; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Luke, Zettlemoyer (ngày 15 tháng 2 năm 2018). "Deep contextualized word representations". arXiv:1802.05365v2 [cs.CL].
^ Howard, Jeremy; Ruder, Sebastian (ngày 18 tháng 1 năm 2018). "Universal Language Model Fine-tuning for Text Classification". arXiv:1801.06146v5 [cs.CL].
^ Nayak, Pandu (ngày 25 tháng 10 năm 2019). "Understanding searches better than ever before". Google Blog. Truy cập ngày 10 tháng 12 năm 2019.
^ BERT, Google Research, ngày 22 tháng 10 năm 2021, truy cập ngày 22 tháng 10 năm 2021
^ Montti, Roger (ngày 10 tháng 12 năm 2019). "Google's BERT Rolls Out Worldwide". Search Engine Journal. Search Engine Journal. Truy cập ngày 10 tháng 12 năm 2019.
^ "trituenhantaoio/bert-base-vietnamese-uncased · Hugging Face". huggingface.co. Truy cập ngày 22 tháng 10 năm 2021.
^ "Best Paper Awards". NAACL. 2019. Truy cập ngày 28 tháng 3 năm 2020.

Đọc thêm

Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What we know about how BERT works". arXiv:2002.12327 [cs.CL].

Liên kết ngoài

Official GitHub repository

[:0-1] Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (ngày 11 tháng 10 năm 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].

[2] "Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing". Google AI Blog (bằng tiếng Anh). Truy cập ngày 27 tháng 11 năm 2019.

[3] "Understanding searches better than ever before". Google (bằng tiếng Anh). ngày 25 tháng 10 năm 2019. Truy cập ngày 27 tháng 11 năm 2019.

[4] Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). "Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books". tr. 19–27. arXiv:1506.06724 [cs.CV].

[5] Dai, Andrew; Le, Quoc (ngày 4 tháng 11 năm 2015). "Semi-supervised Sequence Learning". arXiv:1511.01432 [cs.LG].

[6] Peters, Matthew; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Luke, Zettlemoyer (ngày 15 tháng 2 năm 2018). "Deep contextualized word representations". arXiv:1802.05365v2 [cs.CL].

[7] Howard, Jeremy; Ruder, Sebastian (ngày 18 tháng 1 năm 2018). "Universal Language Model Fine-tuning for Text Classification". arXiv:1801.06146v5 [cs.CL].

[8] Nayak, Pandu (ngày 25 tháng 10 năm 2019). "Understanding searches better than ever before". Google Blog. Truy cập ngày 10 tháng 12 năm 2019.

[9] BERT, Google Research, ngày 22 tháng 10 năm 2021, truy cập ngày 22 tháng 10 năm 2021

[10] Montti, Roger (ngày 10 tháng 12 năm 2019). "Google's BERT Rolls Out Worldwide". Search Engine Journal. Search Engine Journal. Truy cập ngày 10 tháng 12 năm 2019.

[11] "trituenhantaoio/bert-base-vietnamese-uncased · Hugging Face". huggingface.co. Truy cập ngày 22 tháng 10 năm 2021.

[12] "Best Paper Awards". NAACL. 2019. Truy cập ngày 28 tháng 3 năm 2020.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

x t s Xử lý ngôn ngữ tự nhiên
Thuật ngữ chung	Hiểu ngôn ngữ tự nhiên Ngữ liệu văn bản Ngữ liệu tiếng nói Từ dừng Mô hình túi từ AI-đầy đủ N-gram (Bigram, Trigram)
Khai thác văn bản	Phân đoạn văn bản Gán nhãn từ loại Phân tích cú pháp sơ bộ Compound-term processing Collocation extraction Stemming Lemmatisation Nhận dạng thực thể có tên Coreference Phân tích tình cảm Khai phá khái niệm Phân tích cú pháp Nhập nhằng Ontology learning Trích xuất thuật ngữ Textual entailment Truecasing
Tóm tắt tự động	Tóm tắt đa văn bản Trích xuất câu Đơn giản hóa văn bản
Dịch tự động	Computer-assisted translation Example-based machine translation Rule-based machine translation Dịch máy bằng nơ-ron
Nhận dạng tự động và thu thập dữ liệu	Nhận dạng tiếng nói Tổng hợp giọng nói Nhận dạng ký tự quang học Sinh ngôn ngữ tự nhiên
Mô hình ngữ nghĩa phân phối	BERT Document-term matrix Explicit semantic analysis fastText GloVe Mô hình ngôn ngữ (lớn) Phân tích ngữ nghĩa tiềm ẩn Seq2seq Vectơ từ Word2vec
Mô hình chủ đề	Phân bổ Pachinko Phân bổ Dirichlet tiềm ẩn Phân tích ngữ nghĩa tiềm ẩn
Xem xét với sự trợ giúp máy tính	Automated essay scoring Concordancer Sửa lỗi chính tả Predictive text Spell checker Syntax guessing
Giao diện người dùng ngôn ngữ tự nhiên	Trợ lý ảo Chatbot Interactive fiction Question answering Giao diện giọng nói người dùng