Ngữ liệu văn bản

Ngữ liệu văn bản (tiếng Anh: text corpus) là một tập hợp lớn các văn bản có cấu trúc (thông thường được lưu giữ dạng điện toán và đã xử lý).[1][2]

Một kho ngữ liệu có thể gồm những văn bản bằng một thứ tiếng (ngữ liệu đơn ngữ) hay nhiều thứ tiếng (ngữ liệu đa ngữ). Kho ngữ liệu đa ngữ có thể được sắp xếp theo dạng đối chiếu, gọi là kho ngữ liệu song song. Để có ích hơn cho việc nghiên cứu ngôn ngữ, các kho ngữ liệu thường được đánh dấu. Một ví dụ là việc gán nhãn từ loại (part-of-speech tagging hay là POS-tagging), trong đó các từ được gán nhãn danh từ, động từ, tính từ và nhiều loại từ khác.

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ What is a corpus? What is corpus linguistics?[liên kết hỏng], Technische Universität Chemnitz.
  2. ^ Language Corpora, The University of Queensland.

Liên kết ngoài

[sửa | sửa mã nguồn]
Chúng tôi bán
Bài viết liên quan
Giới thiệu TV Series: Ragnarok (2020) - Hoàng hôn của chư thần
Giới thiệu TV Series: Ragnarok (2020) - Hoàng hôn của chư thần
Một series khá mới của Netflix tuy nhiên có vẻ do không gặp thời
Arlecchino – Lối chơi, hướng build và đội hình
Arlecchino – Lối chơi, hướng build và đội hình
Arlecchino là DPS hệ hỏa, với các cơ chế liên quan tới Khế ước sinh mệnh, đi được cả mono hỏa lẫn bốc hơi, nhưng có thể sẽ gặp vấn đề về sinh tồn.
Đấng tối cao Bellriver - Overlord
Đấng tối cao Bellriver - Overlord
Bellriver một trong những quân sư chiến lược gia trong hàng ngũ 41 Đấng Tối Cao của Đại Lăng Nazarick