Ngữ liệu văn bản

Ngữ liệu văn bản (tiếng Anh: text corpus) là một tập hợp lớn các văn bản có cấu trúc (thông thường được lưu giữ dạng điện toán và đã xử lý).[1][2]

Một kho ngữ liệu có thể gồm những văn bản bằng một thứ tiếng (ngữ liệu đơn ngữ) hay nhiều thứ tiếng (ngữ liệu đa ngữ). Kho ngữ liệu đa ngữ có thể được sắp xếp theo dạng đối chiếu, gọi là kho ngữ liệu song song. Để có ích hơn cho việc nghiên cứu ngôn ngữ, các kho ngữ liệu thường được đánh dấu. Một ví dụ là việc gán nhãn từ loại (part-of-speech tagging hay là POS-tagging), trong đó các từ được gán nhãn danh từ, động từ, tính từ và nhiều loại từ khác.

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ What is a corpus? What is corpus linguistics?[liên kết hỏng], Technische Universität Chemnitz.
  2. ^ Language Corpora, The University of Queensland.

Liên kết ngoài

[sửa | sửa mã nguồn]
Chúng tôi bán
Bài viết liên quan
Một số Extensions dành cho các dân chơi Visual Code
Một số Extensions dành cho các dân chơi Visual Code
Trước khi bắt tay vào cốt thì bạn cũng nên tự trang trí vì dù sao bạn cũng sẽ cần dùng lâu dài hoặc đơn giản muốn thử cảm giác mới lạ
Con người rốt cuộc phải trải qua những gì mới có thể đạt đến sự giác ngộ?
Con người rốt cuộc phải trải qua những gì mới có thể đạt đến sự giác ngộ?
Mọi ý kiến và đánh giá của người khác đều chỉ là tạm thời, chỉ có trải nghiệm và thành tựu của chính mình mới đi theo suốt đời
Nhân vật Megumin - Kono Subarashii Sekai ni Shukufuku wo
Nhân vật Megumin - Kono Subarashii Sekai ni Shukufuku wo
Megumin (め ぐ み ん) là một Arch Wizard của Crimson Magic Clan trong Thế giới Ảo, và là người đầu tiên tham gia nhóm của Kazuma
Bốn kẻ đổ bộ và liên đới tứ kỵ sĩ khải huyền
Bốn kẻ đổ bộ và liên đới tứ kỵ sĩ khải huyền
Tứ Kỵ Sĩ Khải Huyền xuất hiện trong Sách Khải Huyền – cuốn sách được xem là văn bản cuối cùng thuộc Tân Ước Cơ Đốc Giáo