Phân đoạn văn bản

Phân đoạn văn bản là quá trình phân chia văn bản viết thành các đơn vị có ý nghĩa, ví dụ như các từ, câu hay chủ đề.[1] Có hai quy trình chính để thực hiện việc phân tách văn bản đó là: (1) áp dụng quá trình tinh thần khi con người đọc văn bản và (2) áp dụng quá trình nhân tạo do máy tính xử lý và cũng là chủ đề của xử lý ngôn ngữ tự nhiên. Đây là bài toán không đơn giản. Một số ngôn ngữ viết có các điểm mốc rõ ràng để xác định ranh giới giữa các đơn vị văn bản, chẳng hạn như khoảng trắng giữa các từ trong tiếng Anh và các hình dạng chữ cái có thể phân biệt ở vị trí đầu tiên, ở giữa và ở cuối cùng trong tiếng Ả Rập. Tuy nhiên, những dấu hiệu nhận biết này như vậy đôi khi khá mơ hồ và không phải lúc nào xuất hiện rõ ràng ở tất cả các ngôn ngữ viết.

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ Huang H., Zhang B. (2009) Text Segmentation. In: LIU L., ÖZSU M.T. (eds) Encyclopedia of Database Systems. Springer, Boston, MA. https://doi.org/10.1007/978-0-387-39940-9_421