Phân đoạn văn bản

Phân đoạn văn bản là quá trình phân chia văn bản viết thành các đơn vị có ý nghĩa, ví dụ như các từ, câu hay chủ đề.[1] Có hai quy trình chính để thực hiện việc phân tách văn bản đó là: (1) áp dụng quá trình tinh thần khi con người đọc văn bản và (2) áp dụng quá trình nhân tạo do máy tính xử lý và cũng là chủ đề của xử lý ngôn ngữ tự nhiên. Đây là bài toán không đơn giản. Một số ngôn ngữ viết có các điểm mốc rõ ràng để xác định ranh giới giữa các đơn vị văn bản, chẳng hạn như khoảng trắng giữa các từ trong tiếng Anh và các hình dạng chữ cái có thể phân biệt ở vị trí đầu tiên, ở giữa và ở cuối cùng trong tiếng Ả Rập. Tuy nhiên, những dấu hiệu nhận biết này như vậy đôi khi khá mơ hồ và không phải lúc nào xuất hiện rõ ràng ở tất cả các ngôn ngữ viết.

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ Huang H., Zhang B. (2009) Text Segmentation. In: LIU L., ÖZSU M.T. (eds) Encyclopedia of Database Systems. Springer, Boston, MA. https://doi.org/10.1007/978-0-387-39940-9_421
Chúng tôi bán
Bài viết liên quan
🌳 Review Hà Giang 3N2Đ chỉ với 1,8tr/người ❤️
🌳 Review Hà Giang 3N2Đ chỉ với 1,8tr/người ❤️
Mình chưa từng thấy 1 nơi nào mà nó đẹp tới như vậy,thiên nhiên bao la hùng vĩ với những quả núi xếp lên nhau. Đi cả đoạn đường chỉ có thốt lên là sao có thể đẹp như vậy
Vì sao tỉ giá năm 2024 dậy sóng?
Vì sao tỉ giá năm 2024 dậy sóng?
Kể từ đầu năm 2024 tới nay, tỉ giá USD/VND đã liên tục phá đỉnh lịch sử và chạm ngưỡng 25.500 VND/USD vào tháng 4
Làm thế nào để thông minh hơn?
Làm thế nào để thông minh hơn?
làm thế nào để tôi phát triển được nhiều thêm các sự liên kết trong trí óc của mình, để tôi có thể nói chuyện cuốn hút hơn và viết nhanh hơn
Công thức tính sát thương của Shenhe và Yunjin
Công thức tính sát thương của Shenhe và Yunjin
Shenhe và Yunjin có cơ chế gây sát thương theo flat DMG dựa trên stack cấp cho đồng đội, nên sát thương mà cả 2 gây ra lại phần lớn tính theo DMG bonus và crit của nhân vật khác