Phân đoạn văn bản

Phân đoạn văn bản là quá trình phân chia văn bản viết thành các đơn vị có ý nghĩa, ví dụ như các từ, câu hay chủ đề.[1] Có hai quy trình chính để thực hiện việc phân tách văn bản đó là: (1) áp dụng quá trình tinh thần khi con người đọc văn bản và (2) áp dụng quá trình nhân tạo do máy tính xử lý và cũng là chủ đề của xử lý ngôn ngữ tự nhiên. Đây là bài toán không đơn giản. Một số ngôn ngữ viết có các điểm mốc rõ ràng để xác định ranh giới giữa các đơn vị văn bản, chẳng hạn như khoảng trắng giữa các từ trong tiếng Anh và các hình dạng chữ cái có thể phân biệt ở vị trí đầu tiên, ở giữa và ở cuối cùng trong tiếng Ả Rập. Tuy nhiên, những dấu hiệu nhận biết này như vậy đôi khi khá mơ hồ và không phải lúc nào xuất hiện rõ ràng ở tất cả các ngôn ngữ viết.

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ Huang H., Zhang B. (2009) Text Segmentation. In: LIU L., ÖZSU M.T. (eds) Encyclopedia of Database Systems. Springer, Boston, MA. https://doi.org/10.1007/978-0-387-39940-9_421
Chúng tôi bán
Bài viết liên quan
Download First Man 2018 Vietsub
Download First Man 2018 Vietsub
Bước Chân Đầu Tiên tái hiện lại hành trình lịch sử đưa con người tiếp cận mặt trăng của NASA
Nhân vật Tira - Thủ Lĩnh hội sát thủ Ijaniya trong Overlord
Nhân vật Tira - Thủ Lĩnh hội sát thủ Ijaniya trong Overlord
Tira chị em sinh 3 của Tina Tia , khác vs 2 chị em bị rung động bởi người khác thì Tira luôn giữ vững lập trường và trung thành tuyệt đối đối vs tổ chức sát thủ của mình
[Guide] Hướng dẫn build Layla (Khiên Support) - Genshin Impact
[Guide] Hướng dẫn build Layla (Khiên Support) - Genshin Impact
Layla là đại diện hoàn hảo cho tôi ở trường, lol (có lẽ tôi nên đi ngủ sớm hơn)
Tây Du Hắc Tích – Nhị Lang Thần và tầm vóc câu chuyện Game Science muốn kể
Tây Du Hắc Tích – Nhị Lang Thần và tầm vóc câu chuyện Game Science muốn kể
Với những ai đã hoàn thành xong trò chơi, hẳn sẽ khá ngạc nhiên về cái kết ẩn được giấu kỹ, theo đó hóa ra người mà chúng ta tưởng là Phản diện lại là một trong những Chính diện ngầm