Phân đoạn văn bản

Phân đoạn văn bản là quá trình phân chia văn bản viết thành các đơn vị có ý nghĩa, ví dụ như các từ, câu hay chủ đề.[1] Có hai quy trình chính để thực hiện việc phân tách văn bản đó là: (1) áp dụng quá trình tinh thần khi con người đọc văn bản và (2) áp dụng quá trình nhân tạo do máy tính xử lý và cũng là chủ đề của xử lý ngôn ngữ tự nhiên. Đây là bài toán không đơn giản. Một số ngôn ngữ viết có các điểm mốc rõ ràng để xác định ranh giới giữa các đơn vị văn bản, chẳng hạn như khoảng trắng giữa các từ trong tiếng Anh và các hình dạng chữ cái có thể phân biệt ở vị trí đầu tiên, ở giữa và ở cuối cùng trong tiếng Ả Rập. Tuy nhiên, những dấu hiệu nhận biết này như vậy đôi khi khá mơ hồ và không phải lúc nào xuất hiện rõ ràng ở tất cả các ngôn ngữ viết.

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ Huang H., Zhang B. (2009) Text Segmentation. In: LIU L., ÖZSU M.T. (eds) Encyclopedia of Database Systems. Springer, Boston, MA. https://doi.org/10.1007/978-0-387-39940-9_421
Chúng tôi bán
Bài viết liên quan
Tổng hợp kĩ năng tối thượng thuộc Thiên Sứ hệ và Ác Ma hệ - Tensura
Tổng hợp kĩ năng tối thượng thuộc Thiên Sứ hệ và Ác Ma hệ - Tensura
Theo lời Guy Crimson, ban đầu Verudanava có 7 kĩ năng tối thượng được gọi là "Mĩ Đức"
Những điều khiến Sukuna trở nên quyến rũ và thành kẻ đứng đầu
Những điều khiến Sukuna trở nên quyến rũ và thành kẻ đứng đầu
Dáng vẻ bốn tay của anh ấy cộng thêm hai cái miệng điều đó với người giống như dị tật bẩm sinh nhưng với một chú thuật sư như Sukuna lại là điều khiến anh ấy trở thành chú thuật sư mạnh nhất
5 Công cụ để tăng khả năng tập trung của bạn
5 Công cụ để tăng khả năng tập trung của bạn
Đây là bản dịch của bài viết "5 Tools to Improve Your Focus" của tác giả Sullivan Young trên blog Medium
Giám sát viên Utahime Iori trường Kyoto Jujutsu Kaisen
Giám sát viên Utahime Iori trường Kyoto Jujutsu Kaisen
Utahime Iori (Iori Utahime?) là một nhân vật trong seri Jujutsu Kaisen, cô là một chú thuật sư sơ cấp 1 và là giám thị học sinh tại trường trung học Jujutsu Kyoto.