N-gram

Một vài n-gram thường tìm thấy trong các tiêu đề ấn bản về bệnh virus corona 2019.

Trong lĩnh vực ngôn ngữ học tính toánxác suất, n-gram là một chuỗi tiếp giáp của n phần tử từ một mẫu văn bản hay lời nói cho trước. Các phần tử có thể là âm vị, âm tiết, chữ cái, từ hoặc các cặp cơ sở (base pairs) tùy theo ứng dụng. Các n-gram được thu thập điển hình từ một tập dữ liệu văn bản hoặc tập dữ liệu lời nói. Khi các phần tử là các từ, n-grams có thể được gọi là các shingle[cần giải thích].[1]

Sử dụng tiền tố số học, một n-gram có kích thước n là 1 được gọi là "unigram"; kích thước n = 2 gọi là "Bigram" (hoặc, ít phổ biến là "digram"); kích thước n = 3 là "Trigram". Trong sinh học tính toán, một polyme hoặc oligomer với kích thước cho trước gọi là k-mer thay vì dùng n-gram, với các tên đặc biệt dùng tiền tố số học như "monomer", "dimer", "trimer", "tetramer", "pentamer",...

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ Broder, Andrei Z.; Glassman, Steven C.; Manasse, Mark S.; Zweig, Geoffrey (1997). “Syntactic clustering of the web”. Computer Networks and ISDN Systems. 29 (8): 1157–1166. doi:10.1016/s0169-7552(97)00031-7.

Liên kết ngoài

[sửa | sửa mã nguồn]
Chúng tôi bán
Bài viết liên quan
Nhân vật Anya Forger - ∎ SPY×FAMILY ∎
Nhân vật Anya Forger - ∎ SPY×FAMILY ∎
Một siêu năng lực gia có khả năng đọc được tâm trí người khác, kết quả của một nghiên cứu thuộc tổ chức nào đó
Tóm tắt nội dung chương 219 - Jujutsu Kaisen
Tóm tắt nội dung chương 219 - Jujutsu Kaisen
Mở đầu chương là về thời đại bình an. Tại đây mọi người đang bàn tán với nhau về Sukuna. Hắn được mời đến một lễ hội
Nhân vật Rufus - Overlord
Nhân vật Rufus - Overlord
Rufus người nắm giữ quyền lực cao trong Pháp Quốc Slane
Data Analytics:
Data Analytics: "Miền đất hứa" cho sinh viên Kinh tế và những điều cần biết
Sự ra đời và phát triển nhanh chóng của cuộc cách mạng công nghiệp 4.0 cùng những khái niệm liên quan như IoT (Internet of Things), Big Data