Ngữ liệu văn bản

Ngữ liệu văn bản (tiếng Anh: text corpus) là một tập hợp lớn các văn bản có cấu trúc (thông thường được lưu giữ dạng điện toán và đã xử lý).[1][2]

Một kho ngữ liệu có thể gồm những văn bản bằng một thứ tiếng (ngữ liệu đơn ngữ) hay nhiều thứ tiếng (ngữ liệu đa ngữ). Kho ngữ liệu đa ngữ có thể được sắp xếp theo dạng đối chiếu, gọi là kho ngữ liệu song song. Để có ích hơn cho việc nghiên cứu ngôn ngữ, các kho ngữ liệu thường được đánh dấu. Một ví dụ là việc gán nhãn từ loại (part-of-speech tagging hay là POS-tagging), trong đó các từ được gán nhãn danh từ, động từ, tính từ và nhiều loại từ khác.

Tham khảo[sửa | sửa mã nguồn]

  1. ^ What is a corpus? What is corpus linguistics?[liên kết hỏng], Technische Universität Chemnitz.
  2. ^ Language Corpora, The University of Queensland.

Xem thêm[sửa | sửa mã nguồn]

Liên kết ngoài[sửa | sửa mã nguồn]

Chúng tôi bán
Bài viết liên quan
Cuộc đời kỳ lạ và điên loạn của nữ hoạ sĩ Séraphine
Cuộc đời kỳ lạ và điên loạn của nữ hoạ sĩ Séraphine
Trái ngược với những tác phẩm vẽ hoa rực rỡ, đầy sức sống đồng nội, Séraphine Louis hay Séraphine de Senlis (1864-1942) có một cuộc đời buồn bã
[Review] Bí Mật Nơi Góc Tối – Từ tiểu thuyết đến phim chuyển thể
[Review] Bí Mật Nơi Góc Tối – Từ tiểu thuyết đến phim chuyển thể
Dù bạn vẫn còn ngồi trên ghế nhà trường, hay đã bước vào đời, hy vọng rằng 24 tập phim sẽ phần nào truyền thêm động lực, giúp bạn có thêm can đảm mà theo đuổi ước mơ, giống như Chu Tư Việt và Đinh Tiễn vậy
Những điều mình học được từ quyển sách tâm lí học về tiền
Những điều mình học được từ quyển sách tâm lí học về tiền
Là một quyển sách tài chính nhẹ nhàng và gần gũi. Với những câu chuyện thú vị về thành công và thất bại của những chuyên trong lĩnh vực tài chính
Tổng hợp các lãnh địa được sử dụng trong Jujutsu Kaisen
Tổng hợp các lãnh địa được sử dụng trong Jujutsu Kaisen
Bành trướng lãnh địa được xác nhận khi người thi triển hô "Bành trướng lãnh địa" những cá nhân không làm vậy đều sẽ được coi là "Giản dị lãnh địa"